講演名 2007/11/21
雑音環境での認識に頑健な発声全体平均局所分散正規化法
遠藤 俊樹, 河井 恒,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 実環境での分散型音声認識システムの利用では,背景雑音による認識精度の劣化を回避するために,軽量でリアルタイム処理が可能な耐雑音機能が必須である.本稿では,このような要件を満たす平均分散正規化法を拡張した,発声全体平均局所分散正規化法を提案する.提案方式は,時間的に変動する雑音によるミスマッチ成分を補正するために局所のケプストラム分散値を用い,また,チャネル特性の推定精度の劣化を回避するために発声全体のケプストラム平均値を用いて正規化処理を行なう.AURORA-2J評価セットを用いた評価実験の結果,クリーン学習時に7.6%,マルチコンディショナル学習時に2.1%,局所平均分散正規化法より高い認識精度を得られることを示す.分散型音声認識の拡張フロントエンドに対しても軽量な処理で同程度の認識精度を達成し,セグメント長を31フレームとした場合に,クリーン学習時に0.8%,マルチコンディショナル学習時に0.4%高い認識精度を得られることを示す.また,音素毎の分布に関する分析の結果,提案手法は局所平均分散法と比較して,音素毎の音響特徴量の分布間距離が長いために音素間の識別性能の劣化をある程度回避できる特徴を持つことを示す.
抄録(英) In this paper, we propose an extension of the mean and variance normalization (MVN) technique, which can reduce the mismatch between the acoustic distributions calculated with the noisy speech and clean speech. The proposed method has processed in real time and its calculation cost is small. This method can compensate the mismatch caused by non-stationary noise and the stationary channel characteristics accurately, which is achieved by normalization with the segmental cepstrum variance and utterance-based cepstrum mean. We evaluate the word accuracy of the proposed method on the Japanese TI-digit database (AURORA-2J). Experimental results showed that the proposed method improves word accuracy 7.6% compared with segmental MVN in clean training, and improves word accuracy 2.1% in multi-condition training. Results also showed improvements of 0.8% and 0.4% in clean training and multi-condition training compared with the Distributed speech recognition advanced front-end (DSR-AFE). The proposed method has a considerably smaller processing load than the DSR-AFE, while maintaining almost the same word accuracy. Distance between the acoustic distributions of each phoneme normalized by the proposed method is longer than that of the segmental MVN, which is considered to result in higher phoneme discrimination than the segmental MVN.
キーワード(和) 耐雑音音声認識 / 平均分散正規化法 / AURORA-2J / 分散型音声認識
キーワード(英) Noise robust speech recognition / mean and variance normalization / AURORA-2J / Distributed speech recognition
資料番号 SP2007-90
発行日

研究会情報
研究会 SP
開催期間 2007/11/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 雑音環境での認識に頑健な発声全体平均局所分散正規化法
サブタイトル(和)
タイトル(英) Utterance-based Mean and Segmental Variance Normalization for Robust Speech Recognition in Noisy Environments
サブタイトル(和)
キーワード(1)(和/英) 耐雑音音声認識 / Noise robust speech recognition
キーワード(2)(和/英) 平均分散正規化法 / mean and variance normalization
キーワード(3)(和/英) AURORA-2J / AURORA-2J
キーワード(4)(和/英) 分散型音声認識 / Distributed speech recognition
第 1 著者 氏名(和/英) 遠藤 俊樹 / Toshiki ENDO
第 1 著者 所属(和/英) KDDI研究所音声処理グループ
Speech Processing Laboratory, KDDI R&D Laboratories Inc.
第 2 著者 氏名(和/英) 河井 恒 / Hisashi Kawai
第 2 著者 所属(和/英) KDDI研究所音声処理グループ
Speech Processing Laboratory, KDDI R&D Laboratories Inc.
発表年月日 2007/11/21
資料番号 SP2007-90
巻番号(vol) vol.107
号番号(no) 356
ページ範囲 pp.-
ページ数 6
発行日