講演名 2003/5/23
講演音声認識における音響・言語モデルの話者適応の検討(認識・理解・対話)
堤 怜介, 関 信哉, 加藤 正治, 小坂 哲夫, 好田 正紀,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では話し言葉音声の代表として講演音声を取り上げ,認識精度の向上を目指す.講演音声や会議音声などの認識においては,講演録や議事録の作成を目的としている場合が多く,リアルタイムな認識である必要はない.そこで,音響モデルと言語モデルの話者適応を考える.音響モデルの話者適応では,完全な教師なし適応において高精度な適応が望めないので,先頭数分のラベリングが人手で行われていることを前提に,教師なしと教師有りを組み合わせた適応を行う.言語モデルの適応では,品詞をクラス単位とすることで,適応テキストである認識結果の誤りを抑えた適応を行う.講演音声CSJの評価セット平均認識精度は,音響モデルの適応で7ポイントの向上,言語モデルの適応で2ポイントの向上,音響モデルの適応と言語モデルの適応を併用し9ポイントの向上を得た.最終的に,単語誤り率で20.9%の結果が得られ,目標としていた認識精度80%をほぼ達成した.
抄録(英) This paper aims at high accuracy recognition of a lecture speech as a representative of a spontaneous speech. To obtain high accuracy recognition of a lecture speech, speaker adaptation of an acoustic model and a linguistic model is considered. In speaker adaptation of an acoustic model, a combination of a supervised adaptation and an unsupervised adaptation is performed. In speaker adaptation of a linguistic model, linear interpolation of word-based beseline model and class-based model maked form recognition result is performed. Recognition experiment by an evaluation set of CSJ shows that acoustic model adaptation and linguistic model adaptation achieve WER improvement of seven points and two points, respectively, and by acoustic model adaptation in combination with linguistic model adaptation WER improvement of nine points is achieved. As a result, WER of 20.9% was obtained.
キーワード(和) 講演音声認識 / 音響モデル / 言語モデル / 話者適応
キーワード(英) lecture speech recognition / acoustic model / linguistic model / speaker adaptation
資料番号 SP2003-27
発行日

研究会情報
研究会 SP
開催期間 2003/5/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 講演音声認識における音響・言語モデルの話者適応の検討(認識・理解・対話)
サブタイトル(和)
タイトル(英) Speaker Adaptation of Acoustic and Linguistic models for Lecture Speech Recognition
サブタイトル(和)
キーワード(1)(和/英) 講演音声認識 / lecture speech recognition
キーワード(2)(和/英) 音響モデル / acoustic model
キーワード(3)(和/英) 言語モデル / linguistic model
キーワード(4)(和/英) 話者適応 / speaker adaptation
第 1 著者 氏名(和/英) 堤 怜介 / R. TSUTSUMI
第 1 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 2 著者 氏名(和/英) 関 信哉 / S. SEKI
第 2 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 3 著者 氏名(和/英) 加藤 正治 / M. KATOH
第 3 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 4 著者 氏名(和/英) 小坂 哲夫 / T. KOSAKA
第 4 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 5 著者 氏名(和/英) 好田 正紀 / M. KOHDA
第 5 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
発表年月日 2003/5/23
資料番号 SP2003-27
巻番号(vol) vol.103
号番号(no) 94
ページ範囲 pp.-
ページ数 6
発行日