講演名 2006/12/15
講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
山崎 裕紀, 岩野 公司, 篠田 浩一, 古井 貞煕, 横田 治夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 大学などで行なわれる講義に対する音声認識において,講義中に使用されたスライド資料を用い,言語モデルを動的に適応する手法を提案する.認識音声に対応するスライドから抽出した言語情報を適応データとして用いることで適応言語モデルを作成し,認識に用いる.大学で開講された講義を対象として認識性能の評価を行ない,手法の効果を確認した.講義1コース分のスライド全てをグローバルに適応に用いることで,単語誤り率が3.1%削減された.また,キーワード抽出においても性能の改善が見られrecallにして21.5%の誤りが削減され,precisionにして13.8%の誤りが削減された.さらに各講義スライドをローカルに適応に用いることで,グローバルな適応のみの結果に対し改善が見られた.特にキーワード抽出に対して効果が見られrecallにして3.1%の誤りが削減されprecisionにして1.4%の誤りが削減された.
抄録(英) We propose a dynamic language model adaptation method for lecture speech recognition in which the information of text on slides for lectures is used. The speech data corresponding to each slide are recognized with a language model adapted to them by using the slide texts as adaptation data. We evaluated the proposed method by using the speech data of three classroom courses in Japanese, and confirmed its effectiveness. The average speech recognition error was reduced by 3.1% by the global adaptation using all slides used in a cource. The error rates of recall and precision for keywords were also reduced by 21.5% and 13.8% respectively. Furthermore, we achieved the improvement of keyword detection performance by the adaptation using each slide locally. The error rates of recall and precision for keywords were reduced by 3.1% and 1.4% respectively from global adaptation.
キーワード(和) 言語モデル適応 / 音声認識 / 講義音声
キーワード(英) Language model adaptation / speech recognition / classroom lecture speech
資料番号 NLC2006-66,SP2006-122
発行日

研究会情報
研究会 NLC
開催期間 2006/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Using presentation slide information for lecture speech recognition
サブタイトル(和)
キーワード(1)(和/英) 言語モデル適応 / Language model adaptation
キーワード(2)(和/英) 音声認識 / speech recognition
キーワード(3)(和/英) 講義音声 / classroom lecture speech
第 1 著者 氏名(和/英) 山崎 裕紀 / Hiroki YAMAZAKI
第 1 著者 所属(和/英) 東京工業大学大学院 情報理工学研究科 計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 岩野 公司 / Koji IWANO
第 2 著者 所属(和/英) 東京工業大学大学院 情報理工学研究科 計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 篠田 浩一 / Koichi SHINODA
第 3 著者 所属(和/英) 東京工業大学大学院 情報理工学研究科 計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 4 著者 氏名(和/英) 古井 貞煕 / Sadaoki FURUI
第 4 著者 所属(和/英) 東京工業大学大学院 情報理工学研究科 計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 5 著者 氏名(和/英) 横田 治夫 / Haruo YOKOTA
第 5 著者 所属(和/英) 東京工業大学大学院 情報理工学研究科 計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2006/12/15
資料番号 NLC2006-66,SP2006-122
巻番号(vol) vol.106
号番号(no) 442
ページ範囲 pp.-
ページ数 6
発行日