講演名 2004/12/14
雑音環境における複数モデルを用いた十分統計量に基づく教師なし話者適応(ポスターセッション)(第6回音声言語シンポジウム)
, 李 晃伸, 猿渡 洋, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識において,話者ごとに異なる話者の声の特性を考慮して,音韻モデルの話者適応の研究が行われている.一方で,性別や年齢層などの話者クラスごとに学習したクラス依存音韻モデルを用いることで,不特定話者モデルよりも認識精度は向上する.本研究では,多様な音声データベースが整備されつつある現状を背景に,HMM十分統計量に基づく教師なし話者適応を複数のデータベースおよび複数の初期モデルに拡張する.従来法では単一の不特定話者モデルから適応を行っていたが,提案手法では年齢層や性別などの複数のクラス依存書簡モデルを元に適応を行うことで初期モデルの改善を図る.まず,入力音声に対してGMMから最も音響的特徴の近い話者集合を抽出する.その際に,そのリスト中の近傍話者の属するクラスから,入力音声に最も近いクラス依存音韻モデルを適訳する.その後,それを基準モデルとして,そのクラスに対応する近傍話者の十分統計量から音韻モデルを再構築する.JNAS成人および高齢者のデータベースを用い,オフィス・人混み・展示会場ブース・車室内の各雑音環境において評価を行ったところ,従来手法に比べて精度が向上することが確かめられた.さらに,教師あり適応のMLLR法と比較したところ,10文章による教師あり適応よりもよい精度が得られることが示された.
抄録(英) Speaker adaptation in speech recognition is necessary to achieve a high accuracy for wide varieties of speakers. On the other hand, using class-dependent (CD) acoustic model for specific gender/age class can result to a better accuracy than a single speaker-independent (SI) model. In this research, we extend the unsupervised speaker adaptation based on HMM Sufficient Statistics (HMM-SS) for multiple database and multiple initial models, given a wide varieties of speech database. As opposed to the conventional approach which utilizes only a single SI model as a base model, the proposed method makes use of multiple CD models to push up the performance of initial model before adaptation. A speaker's class is estimated from the N-best neighbor speakers by Gaussian Mixture Models (GMM) on the way of speaker selection, and the corresponding CD model is adopted as a base model. Then, the unsupervised speaker adaptation is performed by constructing HMM from HMM-SS of the selected speakers. Experiments were carried out on two database namely, adults and senior people by JNAS, and we performed testing under noisy environment conditions such as office, crowd, booth and car noise with 20dB SNR. Recognition results show that the proposed method based on multiple model outperforms the conventional approach. Moreover, comparison with the Maximum Likelihood Linear Regression (MLLR) adaptation with 10 supervised utterance confirms that our method perfroms better with only a single utterance input.
キーワード(和) 教師なし話者適応 / HMM十分統計量 / クラス依存音韻モデル
キーワード(英) Unsupervised Adaptation / Noise Robustness / HMM Sufficient Statistics
資料番号 NLC2004-75,SP2004-115
発行日

研究会情報
研究会 SP
開催期間 2004/12/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 雑音環境における複数モデルを用いた十分統計量に基づく教師なし話者適応(ポスターセッション)(第6回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Unsupervised Speaker Adaptation Based on HMM Sufficient Statistics Using Multiple Acoustic Models Under Noisy Environment
サブタイトル(和)
キーワード(1)(和/英) 教師なし話者適応 / Unsupervised Adaptation
キーワード(2)(和/英) HMM十分統計量 / Noise Robustness
キーワード(3)(和/英) クラス依存音韻モデル / HMM Sufficient Statistics
第 1 著者 氏名(和/英) / Randy GOMEZ
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 2 著者 氏名(和/英) 李 晃伸 / Akinobu LEE
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 3 著者 氏名(和/英) 猿渡 洋 / Hiroshi SARUWATARIHiroshi
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
第 4 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
発表年月日 2004/12/14
資料番号 NLC2004-75,SP2004-115
巻番号(vol) vol.104
号番号(no) 542
ページ範囲 pp.-
ページ数 6
発行日