講演名 2005/12/15
MSD-HMMに基づく音声のスタイル識別(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
川島 啓吾, 橘 誠, 山岸 順一, 小林 隆夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では, 多空間上の確率分布(MSD)に基づくHMMを用いた音声の感情・発話様式の識別について検討している.MSD-HMMにより音声のスペクトル情報と基本周波数(F0)の同時モデル化を行い, 複数の話者の平静調音声で学習されたユニバーサルバックグラウンドモデル(UBM)を目標話者・スタイルの少量の文章によりモデル適応し, 話者及びスタイルの同時適応を行ったモデルを用いて識別を行っている.まずMSD-HMMを用いて特徴量にF0を含めることで識別率が改善することを示し, 次に, 適応時の初期モデルとしてUBMを用いる場合と, 目標話者の読上げ音声から作成した話者依存モデルを使用する場合の比較を行い, UBMを用いて話者とスタイルの同時適応を行った場合においても, 話者依存モデルと同等の性能が得られることを示す.最後に, ナレーション経験のない話者の音声を用いた評価実験を行った結果を示す.
抄録(英) This paper describes a classification technique of emotional expressions and speaking styles of speech based on multi-space probability distribution HMM (MSD-HMM). By using MSD-HMM, we model spectral and fundamental frequency (F0) features simultaneously. A universal background model (UBM) is trained by using neutral style speech data of multiple speakers and then adapted to the target speaker and style using a small amount of speech data. In this study, first, we investigate the effect of the use of F0 and show that including F0 in the feature vector improves the classification rate. Then, we compare the performance of speaker and style adapted UBM with that of speaker dependent model trained by target speaker's neutral style data and show that classification result of the adapted UBM are close to that of speaker dependent model. We also perform classification experiments using recorded speech by unprofessional speakers.
キーワード(和) 感情音声 / 発話様式 / スタイル識別 / 話者適応 / 韻律的特徴
キーワード(英) emotional speech / speaking style / MSD-HMM / style classification / speaker adaptation / prosodic features
資料番号 NLC2005-103,SP2005-136
発行日

研究会情報
研究会 NLC
開催期間 2005/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) MSD-HMMに基づく音声のスタイル識別(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Style classification of speech based on MSD-HMM
サブタイトル(和)
キーワード(1)(和/英) 感情音声 / emotional speech
キーワード(2)(和/英) 発話様式 / speaking style
キーワード(3)(和/英) スタイル識別 / MSD-HMM
キーワード(4)(和/英) 話者適応 / style classification
キーワード(5)(和/英) 韻律的特徴 / speaker adaptation
第 1 著者 氏名(和/英) 川島 啓吾 / Keigo KAWASHIMA
第 1 著者 所属(和/英) 東京工業大学大学院総合理工学研究科物理情報システム専攻
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 橘 誠 / Makoto TACHIBANA
第 2 著者 所属(和/英) 東京工業大学大学院総合理工学研究科物理情報システム専攻
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 山岸 順一 / Junichi YAMAGISHI
第 3 著者 所属(和/英) 東京工業大学大学院総合理工学研究科物理情報システム専攻
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 4 著者 氏名(和/英) 小林 隆夫 / Takao KOBAYASHI
第 4 著者 所属(和/英) 東京工業大学大学院総合理工学研究科物理情報システム専攻
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
発表年月日 2005/12/15
資料番号 NLC2005-103,SP2005-136
巻番号(vol) vol.105
号番号(no) 494
ページ範囲 pp.-
ページ数 6
発行日