講演名 | 2005/12/15 MSD-HMMに基づく音声のスタイル識別(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム) 川島 啓吾, 橘 誠, 山岸 順一, 小林 隆夫, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本論文では, 多空間上の確率分布(MSD)に基づくHMMを用いた音声の感情・発話様式の識別について検討している.MSD-HMMにより音声のスペクトル情報と基本周波数(F0)の同時モデル化を行い, 複数の話者の平静調音声で学習されたユニバーサルバックグラウンドモデル(UBM)を目標話者・スタイルの少量の文章によりモデル適応し, 話者及びスタイルの同時適応を行ったモデルを用いて識別を行っている.まずMSD-HMMを用いて特徴量にF0を含めることで識別率が改善することを示し, 次に, 適応時の初期モデルとしてUBMを用いる場合と, 目標話者の読上げ音声から作成した話者依存モデルを使用する場合の比較を行い, UBMを用いて話者とスタイルの同時適応を行った場合においても, 話者依存モデルと同等の性能が得られることを示す.最後に, ナレーション経験のない話者の音声を用いた評価実験を行った結果を示す. |
抄録(英) | This paper describes a classification technique of emotional expressions and speaking styles of speech based on multi-space probability distribution HMM (MSD-HMM). By using MSD-HMM, we model spectral and fundamental frequency (F0) features simultaneously. A universal background model (UBM) is trained by using neutral style speech data of multiple speakers and then adapted to the target speaker and style using a small amount of speech data. In this study, first, we investigate the effect of the use of F0 and show that including F0 in the feature vector improves the classification rate. Then, we compare the performance of speaker and style adapted UBM with that of speaker dependent model trained by target speaker's neutral style data and show that classification result of the adapted UBM are close to that of speaker dependent model. We also perform classification experiments using recorded speech by unprofessional speakers. |
キーワード(和) | 感情音声 / 発話様式 / スタイル識別 / 話者適応 / 韻律的特徴 |
キーワード(英) | emotional speech / speaking style / MSD-HMM / style classification / speaker adaptation / prosodic features |
資料番号 | NLC2005-103,SP2005-136 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2005/12/15(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | MSD-HMMに基づく音声のスタイル識別(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | Style classification of speech based on MSD-HMM |
サブタイトル(和) | |
キーワード(1)(和/英) | 感情音声 / emotional speech |
キーワード(2)(和/英) | 発話様式 / speaking style |
キーワード(3)(和/英) | スタイル識別 / MSD-HMM |
キーワード(4)(和/英) | 話者適応 / style classification |
キーワード(5)(和/英) | 韻律的特徴 / speaker adaptation |
第 1 著者 氏名(和/英) | 川島 啓吾 / Keigo KAWASHIMA |
第 1 著者 所属(和/英) | 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
第 2 著者 氏名(和/英) | 橘 誠 / Makoto TACHIBANA |
第 2 著者 所属(和/英) | 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
第 3 著者 氏名(和/英) | 山岸 順一 / Junichi YAMAGISHI |
第 3 著者 所属(和/英) | 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
第 4 著者 氏名(和/英) | 小林 隆夫 / Takao KOBAYASHI |
第 4 著者 所属(和/英) | 東京工業大学大学院総合理工学研究科物理情報システム専攻 Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology |
発表年月日 | 2005/12/15 |
資料番号 | NLC2005-103,SP2005-136 |
巻番号(vol) | vol.105 |
号番号(no) | 494 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |