講演名 2002/12/12
雑音に頑健な音韻モデルと教師なし話者適応
山出 慎吾, 李 晃伸, 猿渡 洋, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 実環境において頑健に音声認識を行うためには,音韻モデルを環境や話者に対して適応させることが重要である.特に実用化を考慮した場合,環境雑音の変動や話者の交代に迅速に対応できることが必要となる.本稿では,まず雑音下の入力音声に対しスペクトルサブトラクションを施した後,任意の小量の雑音を重畳することにより,雑音雑音の影響を低減するアルゴリズムを提案する.さらに,提案手法を十分統計量に基づく教師なし話者適応アルゴリズムに適用する.従来は対象とする環境ごとに音声データべースに雑音を重畳して十分統計量を計算する必要があったが,提案手法では各雑音の種類やSNRの変化をスペクトルサブトラクションおよび雑音の重畳により打ち消すため十分統計量を再計算する必要がなく,どのような環境においても任意の一発声文で,高速に音韻モデルの教師なし話者適応が行える.提案法をオフィス,車内,展示会場,人混みの4種類の環境において,2万語のディクテーションタスクで認識実験を行ったところ,提案手法により適応した音韻モデルの平均認識率は,雑音環境ごとにマッチさせた従来の環境・話者適応モデルと比較してほぼ同程度の認識性能を示し,さらに雑音の変動に対する頑健性が示された.さらに教師あり適応であるMLLR法との比較も報告する.
抄録(英) Noise and speaker adaptation techniques are essential to realize robust speech recognition in real noisy environments. We proposed that a noise robust speech recognition is implemented by superimposing a small quantity of noise data on spectral subtracted input speech. We also apply this noise robust speech recognition to the unsupervised speaker adaptation algorithm based on HMM sufficient statistics in different noise environments. According to spectral subtraction and nois superimposition, our proposed algorithm can make robust against the change of noises and SNR, and adapt quickly without calculating HMM sufficient statistics from noise matched acoustic models. We evaluate successfully our proposed algorithm with 20 k dictation task using four kinds of noises. The recognition experiments show that our proposed method increases the robustness against different noises significantly. We also compared our proposed method with unsupervised MLLR adaptation.
キーワード(和) 耐雑音音声認識 / 話者適応 / スペクトルサブトラクション / 十分統計量
キーワード(英) Noise Robust Speech Recognition / Speaker Adaptation / Spectral Subtraction / HMM Sufficient Statistics
資料番号 SP2002-124
発行日

研究会情報
研究会 SP
開催期間 2002/12/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 雑音に頑健な音韻モデルと教師なし話者適応
サブタイトル(和)
タイトル(英) Noise Robust Speech Recognition Applied to Unsupervised Speaker Adaptation
サブタイトル(和)
キーワード(1)(和/英) 耐雑音音声認識 / Noise Robust Speech Recognition
キーワード(2)(和/英) 話者適応 / Speaker Adaptation
キーワード(3)(和/英) スペクトルサブトラクション / Spectral Subtraction
キーワード(4)(和/英) 十分統計量 / HMM Sufficient Statistics
第 1 著者 氏名(和/英) 山出 慎吾 / Shingo YAMADE
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 李 晃伸 / Akinobu LEE
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者 氏名(和/英) 猿渡 洋 / Hiroshi SARUWATARI
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 4 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2002/12/12
資料番号 SP2002-124
巻番号(vol) vol.102
号番号(no) 529
ページ範囲 pp.-
ページ数 6
発行日