講演名 2001/12/13
雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
伊田 政樹, 中村 哲,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識システムを実環境で利用する場合, その認識性能は周囲の環境雑音の混入に大きく影響を受ける.混入する雑音は多くの場合予測が困難であり, 入力される音声信号と音響モデルの間で不一致が生じ, 認識性能低下の原因となる.このことから, 変動する雑音の混入に対してロバストな音響モデルが求められている, 混入する雑音の問題は, 雑音の種類が未知である問題とSN比が未知である間題の2つに分けて考えることができる.本稿ではこの問題に対し, 一つ目の雑音の種類が未知である問題に対して既存の雑音データと雑音モデルの適応化によるHMM合成法を用い, 二つ目のSN比が未知である問題に対して複数のSN比に対応した音響モデルを並列に用いる.AURORA2タスクによる評価実験の結果, 1secの適応データを用いることでSNR=5dBにおいてベースラインシステムに対して53%の認識性能改善を得た.これは従来法のHMM合成を用いた場合10secの適応データを用いた場合に匹敵する・
抄録(英) When a speech recognition system is used in a real environment, the recognition performance is affected by surrounding noise. Most additional noises are difficult to predict about kind of noise and SNR, so we cannot avoid the mismatch situation between those of training data and test data. Then we need a method to deal with mismatched noise problems and unknown SNRs. In this paper, we propose an HMM composition-based model adaptation that uses a prior noise data against noise mismatches. We also prepare plural HMMs for several SNRs and select the best model based on acoustic likelihood to deal with the unknown SNRs. Experimental results with AURORA2 task show 53% word accuracy improvement from baseline system with 1 sec real noise data for adaptation. The performance is equivalent to a case with 10 sec real data using the conventional HMM composition method.
キーワード(和) HMM合成法 / 雑音モデル / 非定常雑音 / マルチパスモデル
キーワード(英) HMM composition / noise model / nonstationary noise / multipath model
資料番号 NLC2001-57,SP2001-92
発行日

研究会情報
研究会 SP
開催期間 2001/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
サブタイトル(和)
タイトル(英) Rapid Model Adaptation with a Prior Noise GMM and Multi-SNR Models for Noisy Speech Recognition
サブタイトル(和)
キーワード(1)(和/英) HMM合成法 / HMM composition
キーワード(2)(和/英) 雑音モデル / noise model
キーワード(3)(和/英) 非定常雑音 / nonstationary noise
キーワード(4)(和/英) マルチパスモデル / multipath model
第 1 著者 氏名(和/英) 伊田 政樹 / Masaki IDA
第 1 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratories
第 2 著者 氏名(和/英) 中村 哲 / Satoshi NAKAMURA
第 2 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratories
発表年月日 2001/12/13
資料番号 NLC2001-57,SP2001-92
巻番号(vol) vol.101
号番号(no) 522
ページ範囲 pp.-
ページ数 6
発行日