講演名 2004/12/14
雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
佐藤 庄衛, 尾上 和穂, 小林 彰夫, 今井 亨,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では,雑音環境下の音声の認識精度向上を目的とし,探索仮説中の音響尤度を補正する方法を提案する.提案法では,急激な変化を伴う多様な非定常雑音を取り扱うために,雑音モデルと音声モデルの尤度から求めた事後確率を定義し,これを入力音声の音響尤度の信頼度とする.認識時には,信頼度が低いフレームの音響尤度の重み小さくして探索を行う.提案法を,雑音を付加したニュース音声の認識実験に適用した結果,入力音声のS/Nが低い場合(0-5dB)に単語誤認識率の改善が見られた.最大の改善はS/Nが0dBの場合に得られ,誤認識単語削減率20%が得られた.さらに,本論文では入力音声のS/Nが高い場合(10dB)の認識精度を改善するため,補正法の改良を提案する.また,提案法を雑音の多い野球中継音声の認識に適用したところ,他の雑音対策手法と併用しても,野球に関わるキーワードの検出精度が改善されることを確認した.
抄録(英) To improve recognition accuracy for speech uttered in a noisy environment, this paper proposes a new compensation method for acoustic scores in the - Viterbi search. In this method, to cope with wider varieties of background noise whose characteristics change rapidly, a confidence factor is obtained as a posterior probability of speech models or a likelihood ratio between speech models and noise models. This confidence factor represents the reliability of the acoustic score for the input speech. In decoding, weight of the acoustic score at a noisy frame is reduced according to the value of the confidence factor. An experiment with broadcast news transcription showed that this method reduced word errors for input speech with lower SNR values (0-5dB). The greatest reduction of word errors, by 20%, was obtained at an SNR of 0dB. This paper also proposes a modification of the compensation, which improved the recognition performance at a higher SNR of 10 dB. The proposed method is also applied to recognition of a noisy sports program. The results showed the method improved accuracy of keywords that is important for automatic meta-data extraction.
キーワード(和) 音声認識 / 非定常雑音 / 雑音対策 / 音響尤度 / 探索 / 雑音モデル
キーワード(英) speech recognition / noisy environment / acoustic score / compensation
資料番号 NLC2004-58,SP2004-98
発行日

研究会情報
研究会 NLC
開催期間 2004/12/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Speech Recognition Adopting Compensated Acoustic Likelihood based on Noise Models.
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) 非定常雑音 / noisy environment
キーワード(3)(和/英) 雑音対策 / acoustic score
キーワード(4)(和/英) 音響尤度 / compensation
キーワード(5)(和/英) 探索
キーワード(6)(和/英) 雑音モデル
第 1 著者 氏名(和/英) 佐藤 庄衛 / Shoei SATO
第 1 著者 所属(和/英) NHK放送技術研究所
NHK Science and Technical Research Laboratories
第 2 著者 氏名(和/英) 尾上 和穂 / Kazuo ONOE
第 2 著者 所属(和/英) NHK放送技術研究所
NHK Science and Technical Research Laboratories
第 3 著者 氏名(和/英) 小林 彰夫 / Akio KOBAYASHI
第 3 著者 所属(和/英) NHK放送技術研究所
NHK Science and Technical Research Laboratories
第 4 著者 氏名(和/英) 今井 亨 / Toru IMAI
第 4 著者 所属(和/英) NHK放送技術研究所
NHK Science and Technical Research Laboratories
発表年月日 2004/12/14
資料番号 NLC2004-58,SP2004-98
巻番号(vol) vol.104
号番号(no) 539
ページ範囲 pp.-
ページ数 6
発行日