論文賞 推薦の辞
Hidden Conditional Neural Fields for Continuous Phoneme Speech Recognition
藤井康寿 ・ 山本一公 ・ 中川聖一
(英文論文誌D 平成24年8月号掲載)
藤井康寿 山本一公 中川聖一      
 音声認識の性能向上のためには,高精度な音響モデルの構築が極めて重要である.現在,音響モデルとしては隠れマルコフモデル(HMM:Hidden Markov Model)が利用されることが一般的であるが,近年,HMMに代わって,識別モデルを利用する手法が注目されている.その一つにHidden Conditional Random Fields(HCRF)がある.HCRFは有望なモデルであるが,認識仮説のスコアを特徴量の重み付き線形和で計算するため,複数フレームにわたる特徴量間の非線形な関係をうまくモデル化できないという課題がある.
 そこで本論文では,Multi-Layer Perceptron(MLP)で利用されるようなゲート関数を導入することで,特徴量間の非線形性の表現を可能としたHCRFの拡張手法「Hidden Conditional Neural Fields(HCNF)」を提案している.このモデルの学習手法としてHidden Boosted MMI(HB-MMI)基準の提案を行い,更に,2種類のモデル化手法(2層のHCNFによるモデル,及び,Deep Neural Network(DNN)を取り入れたモデル)の提案を行っている.
 提案手法は,英語と日本語の音素認識タスクで評価され,各提案手法の有効性が十分に示されている.最終的には,DNNとHB-MMIを組み合わせて用いることにより,現在の標準的な音響モデルであるtriphone HMMよりも英語・日本語共に高い音素認識性能が得られることが示されている.提案はほう芽的・挑戦的な内容であり,大語彙連続音声認識への適用などの課題も残されているが,これらの解決によって既存のHMMに代わる音響モデルとなることが大いに期待されるものである.また,様々なアイデアを精力的に取り入れ,着実な性能改善を図った上で,それぞれに対する評価実験が妥当に行われており,その貢献度を高く評価することができる.更に,提案するモデルや学習法は,音声認識のみならず,他タスクへの応用も期待されるものである.
 以上より本論文は,新しい識別モデルの提唱として,その貢献を極めて高く評価することができる.

CLOSE