講演名 2007/12/13
動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
デルクロア マーク, 中谷 智広, 渡部 晋治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 一般に、雑音や残響の影響により音声認識率は低下する。これに対し、音声強調を前処理として用いると、時間的に変化する音響的な歪みをある程度低減することができるが、必ずしも音声認識性能を改善できるとはかぎらなかった。また、モデル適応技術を用いることで、音声強調処理後の音声と音響モデルのミスマッチをある程度低減することができるが、動的なミスマッチについては扱うことはできなかった。音声強調とモデル適応のより最適な組み合わせ法の開発が重要であると考えられる。本稿では、動的なミスマッチについても適切に低減できるモデル適応法を提案する。分散を静的な分散と動的な分散で構成されるパラメトリックモデルで表現し、適応処理に基づき、モデルパラメータを最適化する。実験により、残響除去を前処理として用いた場合に、認識誤りを80%削減できること、およびクリーン音声に近い5.4ることを示す。クリーン音声の場合と近い性能が得られた。
抄録(英) It is well known that the performance of automatic speech recognition degrades severely in presence of noise or reverberation. Speech enhancement techniques may reduce such acoustic perturbations, but often do not interconnect well with speech recognizer. To cope with this problem, model adaptation is usually used to reduce the mismatch between the speech enhanced features and the acoustic model used by the recognizer. However, conventional model adaptation techniques assume static mismatch and may therefore not cope well with dynamic mismatch arising from noise or reverberation. There seems to be a lack of optimal ways to combine model adaptation and speech enhancement. In this paper we propose a novel adaptation scheme that may cope with dynamic mismatch. We introduce a parametric model for variance adaptation that includes static components, and dynamic components derived from a speech enhancement pre-process. The model parameters are optimized using adaptive training. An evaluation of the method with a speech dereverberation for pre-processing revealed that a 80% relative error rate reduction was possible compared with the recognition of dereverberated speech, and the final error rate was 5.4% which is close to that of clean speech (1.2%).
キーワード(和) ロバスト音声認識 / 分散補正 / モデル適応
キーワード(英) Robust ASR / Variance compensation / Model adaptation
資料番号 NLC2007-42,SP2007-105
発行日

研究会情報
研究会 SP
開催期間 2007/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Dynamic feature variance adaptation for robust speech recognition with a speech enhancement pre-processor
サブタイトル(和)
キーワード(1)(和/英) ロバスト音声認識 / Robust ASR
キーワード(2)(和/英) 分散補正 / Variance compensation
キーワード(3)(和/英) モデル適応 / Model adaptation
第 1 著者 氏名(和/英) デルクロア マーク / Marc DELCROIX
第 1 著者 所属(和/英) NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 2 著者 氏名(和/英) 中谷 智広 / Tomohiro NAKATANI
第 2 著者 所属(和/英) NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 渡部 晋治 / Shinji WATANABE
第 3 著者 所属(和/英) NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
発表年月日 2007/12/13
資料番号 NLC2007-42,SP2007-105
巻番号(vol) vol.107
号番号(no) 406
ページ範囲 pp.-
ページ数 6
発行日