講演名 2002/12/12
ハンガリー語LVCSRのための有限状態トランスジューサに基づく音韻論・形態論モデル化
サルワシュ マーテー, 古井 貞煕,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では、形態素単位による音声認識における音韻論と形態構文論のモデル化への新しいアプローチについて述べる。提案法は、我々が構築しているハンガリー語の大語彙連続音声認識(LVCSR)システムによって評価されている。タスクは、主要日刊新聞を流暢に読み上げた文音声の認識である。接辞や複合語のために膨大な数になる単語形を十分にカバーするために、形態素に基づく語彙単位をシステムに用いている。基本的な発音モデルと形態素Nグラムに対して、新しい音韻論モデルと新しい統計的形態構文言語モデル(SMLM)を評価した。柔軟性の高いトランスジューサに基づくシステム構成のおかげで、これらの新しい要素は、デコーダ自体を変更することなく、基本的なモジュールと親和性よく統合されている。ベースラインシステムに比較して、提案した音韻論モデルにより誤り率が8.32ルにより誤り率が17.9%低下した。1350形態素のハンガリー語ディクテーションタスクで、最良の構成で14.75%の形態素誤り率が得られている。
抄録(英) This article introduces a novel approach to model phonology and morphosyntax in morpheme unit based speech recognizers. The proposed method is evaluated in our recent Hungarian large vocabulary continuous speech recognition (LVCSR) system. The architecture of the recognition system is based on the weighted finite state transducer (WFST) paradigm. The task domain is the recognition of fluently read sentences selected from a major daily newspaper. The vocabulary units used in the system are morpheme based in order to provide sufficient coverage of the large number of word-forms resulting from affixation and compounding. Besides the basic pronunciation model and the morpheme N-gram language model we evaluate a novel phonology model and the novel stochastic morphosyntactic language model (SMLM). Thanks to the flexible transducer-based architecture of the system these new components are integrated seamlessly with the basic modules with no need to modify the decoder itself. The proposed phonology model reduced the error rate by 8.32% and the stochastic morphosyntacric language model decreased the error rate by 17.9% relatively compared to the baseline systems. The morpheme error rate of the best configuration is 14.75% in a 1350 morpheme Hungarian dictation task.
キーワード(和) 音韻論モデル化 / 言語モデル化 / 形態論モデル化 / 有限状態トランスジューサ / 音声認識 / ハンガリー語
キーワード(英) phonology modeling / language modeling / morphology modeling / finite state transducer / speech recognition / Hungarian
資料番号 SP2002-144
発行日

研究会情報
研究会 SP
開催期間 2002/12/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) ハンガリー語LVCSRのための有限状態トランスジューサに基づく音韻論・形態論モデル化
サブタイトル(和)
タイトル(英) FINITE-STATE TRANSDUCER BASED PHONOLOGY AND MORPHOLOGY MODELING WITH APPLICATIONS TO HUNGARIAN LVCSR
サブタイトル(和)
キーワード(1)(和/英) 音韻論モデル化 / phonology modeling
キーワード(2)(和/英) 言語モデル化 / language modeling
キーワード(3)(和/英) 形態論モデル化 / morphology modeling
キーワード(4)(和/英) 有限状態トランスジューサ / finite state transducer
キーワード(5)(和/英) 音声認識 / speech recognition
キーワード(6)(和/英) ハンガリー語 / Hungarian
第 1 著者 氏名(和/英) サルワシュ マーテー / Mate Szarvas
第 1 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学
Department of Computer Science Tokyo Institute of Technology
第 2 著者 氏名(和/英) 古井 貞煕 / Sadaoki Furui
第 2 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学
Department of Computer Science Tokyo Institute of Technology
発表年月日 2002/12/12
資料番号 SP2002-144
巻番号(vol) vol.102
号番号(no) 529
ページ範囲 pp.-
ページ数 6
発行日