講演名 2004/12/13
ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
渡部 晋治, 中村 篤,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 現在の音声認識システムが自然発話の認識・理解において十分な性能を示すことができない理由に頑健性の欠落が挙げられる.頑健性の欠落の一因としては,統計的モデル学習における,パラメータ推定に基づく最尤法の汎化能力の低さが考えられる.既存の隠れマルコフモデルのみならずそれを超える音響モデリング技術においても,統計的モデル学習は引き続き根幹技術の一つであると考えられ,その汎化能力を高めることは音声認識における普遍的課題といえる.事後確率分布推定にもとづくベイズ法は,モデルパラメータの周辺化操作による高い汎化能力ゆえに,最尤法に比べて頑健なモデル学習を可能にする.ベイズ的音声認識VBECは,変分ベイズ法を用いた事後確率分布推定にもとづくため,ベイズ法の長所である汎化能力の高い頑健な推定を実現する本格的なべイズ音声認識の枠組みである.また,VBECはモデル構造を確率変数とみなすことにより,モデル構造事後確率分布の事後確率最大化をもとにして,人手無しで音響モデルの自動構築を高い精度で実現できる.本稿では発話スタイル・使用言語の異なる学習・評価セット(孤立単語音声・読み上げ音声・講演音声・英語読み上げ音声)を用い,データによらずVBECの音響モデル自動構築が有効であることを示す.また,VBECで自動構築された音響モデルが評価データによらず十分な性革を示すことを先のJNASで作られた音響モデルを質問応答音声で認識することにより検証する.
抄録(英) A lack of robustness with acoustic modeling often degrades the performance of spontaneous speech recognition and understanding. One reason for this shortcoming is that the Maximum Likelihood (ML) approach based on model parameter estimation has a poor generalization ability. This makes it important to improve the generalization ability of robust training of models including HMM and future techniques beyond HMM. The Bayesian approach is based on posterior distribution estimation, and has a better generalization ability than the ML approach due to the marginalization effect of model parameters. Variational Bayesian Estimation and Clustering for speech recognition (VBEC) is a total Bayesian framework in the sense that all speech recognition procedures are based on posterior distribution estimation within the Variational Bayes method, which includes the Bayesian advantage of highly generalized model training. In addition, a VBEC specification of the posterior distribution estimation enables automatic determination of an acoustic model topology without heuristics, by regarding model complexity as a probabilistic variable, and by selecting the appropriate model that scores the maximum probability value. In this paper, we describe experiments for different speaking-style (isolated word, continuous speech and spontaneous lecture speech) and language sets (Japanese and English) of training data, and show the effectiveness of VBEC, which automatically determines the model topology robustly according to the speech types of the training data. We also examine the robustness of the determined models for a mismatched condition between training and test data tasks.
キーワード(和) 音声認識 / VBEC / 音響モデルトポロジーの自動決定 / 発話様式・言語・評価データに対しての頑健性
キーワード(英) Speech recognition / VBEC / Automatic determination of acoustic model topology / Robustness for speaking style, / language and mismatched condition between training and test data
資料番号 NLC2004-50,SP2004-90
発行日

研究会情報
研究会 SP
開催期間 2004/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
サブタイトル(和)
タイトル(英) Robustness of acoustic model topology determined by VBEC for different speech data sets
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Speech recognition
キーワード(2)(和/英) VBEC / VBEC
キーワード(3)(和/英) 音響モデルトポロジーの自動決定 / Automatic determination of acoustic model topology
キーワード(4)(和/英) 発話様式・言語・評価データに対しての頑健性 / Robustness for speaking style,
第 1 著者 氏名(和/英) 渡部 晋治 / Shinji WATANABE
第 1 著者 所属(和/英) 日本電信電話(株)NTTコミュニケーション科学基礎研究所
Nippon Telegraph and Telephone Corporation, NTT Communication Science Laboratories
第 2 著者 氏名(和/英) 中村 篤 / Atsushi NAKAMURA
第 2 著者 所属(和/英) 日本電信電話(株)NTTコミュニケーション科学基礎研究所
Nippon Telegraph and Telephone Corporation, NTT Communication Science Laboratories
発表年月日 2004/12/13
資料番号 NLC2004-50,SP2004-90
巻番号(vol) vol.104
号番号(no) 541
ページ範囲 pp.-
ページ数 6
発行日