ニュース音声認識のための言語モデルと音響モデルの検討

大附 克年; 古井 貞煕; 桜井 直之; 岩崎 淳; 張 志鵬

講演名	1998/12/11 ニュース音声認識のための言語モデルと音響モデルの検討大附克年, 古井貞煕, 桜井直之, 岩崎淳, 張志鵬,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿では, 放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで, 単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語彙連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは, 単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが, 今回, 表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した.放送ニュースでは, 同じ話者が数文続けて発声することが多いため, 入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され, オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに, 従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する基準に対して, 音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し, N-best候補の再評価に適用することでその効果を確認した.
抄録(英)	In this paper, we report on language modeling and acoustic modeling studies for broadcast-news speech recognition. We have been working on the development of a large-vocabulary continuous speech recognition(LVCSR)system for Japanese broadcast-news speech transcription. We constructed a language model that depended on the readings of words, whereas, usual language models depend on written words. In broadcast-news, each speaker utters several sentences in succussion, therefore we applied on-line speaker adaptation which is applied after identifying a speaker of the sentence. The reading-dependent language model reduced word error rate by about 10%, and the on-line speaker adaptation reduced word error rate by about 15%. We propose a new formulation for speech recognition, which maximizes the a posteriori probability of the speaker's intended message for a given observed acoustic sequence. We applied this formulation to rescoring N-best hypotheses and achieved better results with it.
キーワード(和)	大語彙連続音声認識 / 放送ニュース音声 / n-gram / オンライン話者適応 / 意図駆動音声認識
キーワード(英)	LVCSR / broadcast-news speech / n-gram / on-line speaker adaptation / message-driven speech recognition
資料番号	NLC98-44,SP98-108
発行日

研究会情報
研究会	NLC
開催期間	1998/12/11(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Natural Language Understanding and Models of Communication (NLC)
本文の言語	JPN
タイトル（和）	ニュース音声認識のための言語モデルと音響モデルの検討
サブタイトル（和）
タイトル（英）	Language Modeling and Acoustic Modeling for Automatic Transcription of Japanese Broadcast-News Speech
サブタイトル（和）
キーワード(1)（和/英）	大語彙連続音声認識 / LVCSR
キーワード(2)（和/英）	放送ニュース音声 / broadcast-news speech
キーワード(3)（和/英）	n-gram / n-gram
キーワード(4)（和/英）	オンライン話者適応 / on-line speaker adaptation
キーワード(5)（和/英）	意図駆動音声認識 / message-driven speech recognition
第 1 著者氏名（和/英）	大附克年 / Katsutoshi Ohtsuki
第 1 著者所属（和/英）	NTTヒューマンインタフェース研究所 NTT Human Interface Laboratories
第 2 著者氏名（和/英）	古井貞煕 / Sadaoki Furui
第 2 著者所属（和/英）	東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science
第 3 著者氏名（和/英）	桜井直之 / Naoyuki Sakurai
第 3 著者所属（和/英）	東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science
第 4 著者氏名（和/英）	岩崎淳 / Atsushi Iwasaki
第 4 著者所属（和/英）	東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science
第 5 著者氏名（和/英）	張志鵬 / Zhi-Peng Zhang
第 5 著者所属（和/英）	東京工業大学大学院情報理工学研究科 Tokyo Institute of Technology, Department of Computer Science
発表年月日	1998/12/11
資料番号	NLC98-44,SP98-108
巻番号（vol）	vol.98
号番号（no）	461
ページ範囲	pp.-
ページ数	7
発行日