講演名 2007/12/13
音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
江森 正, 大西 祥史, 篠田 浩一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識における確率モデルのスケーリング係数を効率的に推定する新しい手法を提案する。音声認識システムの多くは、音響モデルと言語モデルで構成されており、それらの値のバランスを取るためにスケーリング係数が導入されている。従来、スケーリング係数の値は事前にテストデータを用い、認識実験を行うことによるグリッドサーチで調整されていた。提案法では、スケーリング係数を対数線形モデルの重みパラメータとし、最適値を事後確率最大化基準(maximum a posteriori probability)を基に勾配法を用いて推定を行う。事後確率はワードラティスを用いて計算を行った。ワードラティスを用いることによる推定値の初期値依存を避けるため繰り返し過程を導入する。繰り返し過程では、ワードラティスの生成と勾配法によるスケーリング係数値の推定が交互に繰り返される。実験の結果、提案手法により推定されたスケーリング係数の値が初期値に依存せずほぼ同じ値に推定されることを確認した。また、提案手法により推定された値を用いた場合の単語正解精度と、グリッドサーチで最適化された値を用いた単語正解精度の差は0.1%であることを確認した。
抄録(英) We propose a new efficient method for estimating scaling factors among probabilistic models in speech recognition. Most speech recognition systems consist of more than one model, include an acoustic and a language model, and require scaling factors to balance probabilities among them. The scaling factors are conventionally optimized in preliminary recognition tests using data for development. In our proposed method, the scaling factors are regarded as parameters of a log-linear model, and they are estimated using a gradient-ascent method based on the maximum a posteriori probability criterion. Posterior probability is computed using word-lattices generated by a speech recognizer. We employ an iteration technique which repeats a word-lattice-generation/scaling-factor-estimation process, and the resulting scaling factor estimation is robust with respect to the changes in initial values. In an experimental evaluation of our method by LVCSR using Japanese dialogue speech data, estimated scaling factors were nearly identical to optimal values obtained in a greedy grid search. We have also confirmed that estimated scaling factors changed little with variations in initial values.
キーワード(和) 音声認識 / スケーリング係数 / 対数線形モデル / ワードラティス / 単語ラティス
キーワード(英) speech recognition / scaling factor / log-linear model / word lattice
資料番号 NLC2007-41,SP2007-104
発行日

研究会情報
研究会 SP
開催期間 2007/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Efficient estimation method of scaling factors among probabilistic models in speech recognition
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) スケーリング係数 / scaling factor
キーワード(3)(和/英) 対数線形モデル / log-linear model
キーワード(4)(和/英) ワードラティス / word lattice
キーワード(5)(和/英) 単語ラティス
第 1 著者 氏名(和/英) 江森 正 / Tadashi EMORI
第 1 著者 所属(和/英) 日本電気株式会社
NEC Corporation
第 2 著者 氏名(和/英) 大西 祥史 / Yoshifumi ONISHI
第 2 著者 所属(和/英) 日本電気株式会社
NEC Corporation
第 3 著者 氏名(和/英) 篠田 浩一 / Koichi SHINODA
第 3 著者 所属(和/英) 東京工業大学
Tokyo Institute of Technology
発表年月日 2007/12/13
資料番号 NLC2007-41,SP2007-104
巻番号(vol) vol.107
号番号(no) 406
ページ範囲 pp.-
ページ数 5
発行日