講演名 1998/12/11
新聞読み上げコーパスによるスタックデコーダの評価
シュスター マイク,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では、大語い連続音声認識用スタックデコーダ「のぞみ」について述べる。このデコーダを用い、日本語新聞読み上げ音声コーパスに対し音声認識実験を行った結果、95%以上の単語認識性能を得ることができた。この音声認識実験に用いた音響モデルは、ANAS/ASJコーパスを学習セットとした2000、および3000状態の連続混合分布HMM、言語モデルは、RWCテキストコーパスを学習セットとした3-gramを用いた。これらのモデルは、情報処理振興事業協会(IPA)により提供されている。スタックデコーダ「のぞみ」は、環境非依存の音響モデルを用いることにより、PentiumIIプロセッサ300MHzのハードウェアにおいても、実時間認識が可能である。その時の単語認識率は89%である。また、言語モデルをハードディスク上で扱うことが可能であるため、必要なメモリサイズをわずか4MBに抑えることができる。
抄録(英) This paper describes some of the implementation details of the"Nozomi"stack decoder for LVCSR. The decoder was tasted on a Japanese Newspaper Dictation Task using a 5000 word vocabulary. Using continuous density acoustic models with 2000 and 3000 states trained on the JNAS/ASJ corpora and a 3-gram LM trained on the RWC text corpus, both models peovided by the IPA group[9], it was possible to reach more than 95% word accuracy on the standard test set. With computationally cheap acoustic models we could achieve around 89% accuracy in nearly realtime on a 300 Mhz Pentium II. Using a disk-based LM the memory usage could be optimized to 4 MB in total.
キーワード(和) 音声認識 / リ新聞読み上げ / スタックデコーダ
キーワード(英) speech recognition / Japanese newspaper dictation / one-pass stack decoder
資料番号 NLC98-48,SP98-112
発行日

研究会情報
研究会 NLC
開催期間 1998/12/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) 新聞読み上げコーパスによるスタックデコーダの評価
サブタイトル(和)
タイトル(英) Evaluation of a stack decoder on a Japanese Newspaper Dictation Task
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) リ新聞読み上げ / Japanese newspaper dictation
キーワード(3)(和/英) スタックデコーダ / one-pass stack decoder
第 1 著者 氏名(和/英) シュスター マイク / Mike Schuster
第 1 著者 所属(和/英) ATR音声翻訳通信研究所
ATR Interpreting Telecommunications Research Laboratories
発表年月日 1998/12/11
資料番号 NLC98-48,SP98-112
巻番号(vol) vol.98
号番号(no) 461
ページ範囲 pp.-
ページ数 8
発行日