講演名 | 1998/12/11 ニュース音声認識のための言語モデルと音響モデルの検討 大附 克年, 古井 貞煕, 桜井 直之, 岩崎 淳, 張 志鵬, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿では, 放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで, 単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語彙連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは, 単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが, 今回, 表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した.放送ニュースでは, 同じ話者が数文続けて発声することが多いため, 入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され, オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに, 従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する基準に対して, 音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し, N-best候補の再評価に適用することでその効果を確認した. |
抄録(英) | In this paper, we report on language modeling and acoustic modeling studies for broadcast-news speech recognition. We have been working on the development of a large-vocabulary continuous speech recognition(LVCSR)system for Japanese broadcast-news speech transcription. We constructed a language model that depended on the readings of words, whereas, usual language models depend on written words. In broadcast-news, each speaker utters several sentences in succussion, therefore we applied on-line speaker adaptation which is applied after identifying a speaker of the sentence. The reading-dependent language model reduced word error rate by about 10%, and the on-line speaker adaptation reduced word error rate by about 15%. We propose a new formulation for speech recognition, which maximizes the a posteriori probability of the speaker's intended message for a given observed acoustic sequence. We applied this formulation to rescoring N-best hypotheses and achieved better results with it. |
キーワード(和) | 大語彙連続音声認識 / 放送ニュース音声 / n-gram / オンライン話者適応 / 意図駆動音声認識 |
キーワード(英) | LVCSR / broadcast-news speech / n-gram / on-line speaker adaptation / message-driven speech recognition |
資料番号 | NLC98-44,SP98-108 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 1998/12/11(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | ニュース音声認識のための言語モデルと音響モデルの検討 |
サブタイトル(和) | |
タイトル(英) | Language Modeling and Acoustic Modeling for Automatic Transcription of Japanese Broadcast-News Speech |
サブタイトル(和) | |
キーワード(1)(和/英) | 大語彙連続音声認識 / LVCSR |
キーワード(2)(和/英) | 放送ニュース音声 / broadcast-news speech |
キーワード(3)(和/英) | n-gram / n-gram |
キーワード(4)(和/英) | オンライン話者適応 / on-line speaker adaptation |
キーワード(5)(和/英) | 意図駆動音声認識 / message-driven speech recognition |
第 1 著者 氏名(和/英) | 大附 克年 / Katsutoshi Ohtsuki |
第 1 著者 所属(和/英) | NTTヒューマンインタフェース研究所 NTT Human Interface Laboratories |
第 2 著者 氏名(和/英) | 古井 貞煕 / Sadaoki Furui |
第 2 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science |
第 3 著者 氏名(和/英) | 桜井 直之 / Naoyuki Sakurai |
第 3 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science |
第 4 著者 氏名(和/英) | 岩崎 淳 / Atsushi Iwasaki |
第 4 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science |
第 5 著者 氏名(和/英) | 張 志鵬 / Zhi-Peng Zhang |
第 5 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science |
発表年月日 | 1998/12/11 |
資料番号 | NLC98-44,SP98-108 |
巻番号(vol) | vol.98 |
号番号(no) | 461 |
ページ範囲 | pp.- |
ページ数 | 7 |
発行日 |