講演名 2005/12/14
HMM十分統計量と線形補間法に基づく高速教師なし話者適応の評価(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
, 戸田 智基, 猿渡 洋, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 話者性は音声認識性能に大きな影響を与える要因の一つであり、古くから話者適応技術が盛んに研究されている。実環境において音声認識技術を使用する際には、極少量の適応データによる高速な話者適応技術が求められる。これに対して、我々はこれまでにHMM十分統計量に基づく教師なし話者適応に関する研究を行ってきた。この手法では、ユーザーの任意の一発話のみを用いて、話者データベースから声質の近い話者を上位数十人選択し、選択された話者のデータを用いてユーザー用HMMを学習する。予め話者毎にHMM十分統計量を計算しておくことで、モデル学習時の計算量を大幅に削減する事ができる。選択話者数を減らすことで適応に要する時間をさらに減らせる一方で、学習データ量が不十分となるため認識性能は劣化する。本報告では、十分統計量の線形補間法を導入することで、高性能かつ高速な教師なし話者適応を実現する。提案法では、選択話者数減少に伴うデータ量不足を不特定話者に対する十分統計量を用いて補うことで、認識性能の劣化を防ぐ。実験的評価結果から、高い認識性能を維持したまま約50%の適応時間削減が可能であることを示す。また、他の適応手法(VTLN, MLLR, MAP)との比較結果や、様々な雑音環境下における評価結果についても報告する。
抄録(英) Speaker adaptation techniques minimize the effect of speaker variability. It is neccessary to carry out speaker adaptation rapidly using a minimum amount of adaptation data in real-time application. We propose to improve the unsupervised speaker adaptation based on HMM-Sufficient Statistics using linear interpolation. This adaptation technique uses a single arbitrary utterance to provide data for adaptation by means of selecting N-best speakers' Sufficient Statistics. Reducing the selected N-best speakers implies reduction in adaptation time. However, recognition performance is degraded due to insufficiency of data needed to robustly adapt the model. We introduce linear interpolation of the global HMM-Sufficient Statistics to offset the negative effect of reducing N-best. We achieved a 50% reduction in adaptation time without recognition performance degradation. In our experiment, we have reduced the adaptation time from 10sec to 5sec without degrading the recognition performance. Furthermore we compared our method with Vocal Tract Length Normalization (VTLN), Maximum A Posteriori (MAP) and Maximum Likelihood Linear Regression. Moreover, we tested the performance of our approach in office, car, crowd and booth noise environments in 10dB, 15dB, 20dB and 25dB SNRs.
キーワード(和) 高速教師なし話者適応 / HMM十分統計量 / 線形補間 / 対雑音性
キーワード(英) Rapid Unsupervised Speaker Adaptation / Noise Robustness / HMM Sufficient Statistics
資料番号 NLC2005-59,SP2005-92
発行日

研究会情報
研究会 NLC
開催期間 2005/12/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) HMM十分統計量と線形補間法に基づく高速教師なし話者適応の評価(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Evaluating Rapid Unsupervised Speaker Adaptation Using Linear Interpolation of HMM-Sufficient Statistics
サブタイトル(和)
キーワード(1)(和/英) 高速教師なし話者適応 / Rapid Unsupervised Speaker Adaptation
キーワード(2)(和/英) HMM十分統計量 / Noise Robustness
キーワード(3)(和/英) 線形補間 / HMM Sufficient Statistics
キーワード(4)(和/英) 対雑音性
第 1 著者 氏名(和/英) / Randy GOMEZ
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 2 著者 氏名(和/英) 戸田 智基 / Tomoki TODA
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 3 著者 氏名(和/英) 猿渡 洋 / Hiroshi SARUWATARI
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 4 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
発表年月日 2005/12/14
資料番号 NLC2005-59,SP2005-92
巻番号(vol) vol.105
号番号(no) 493
ページ範囲 pp.-
ページ数 6
発行日