講演名 2017-10-20
講義・講演の自動字幕システムを想定した低コストな半自動修正・適応手法
田宮 健多(静岡大), 寺田 侑司(静岡大), 甲斐 充彦(静岡大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 自動音声認識(ASR)技術を利用することで、講義等の音声を低コスト、リアルタイムに字幕化することができ、聴覚障害者にとって大きな助けとなる。しかしASRシステムを用いる場合、特に大学講義では専門用語が未知語となりやすいことや、話者や収録環境によって認識精度が大きく左右される問題がある。このような誤認識結果を修正するために、従来では複数のオペレータが必要で高コストであったり、大きな遅延が生じる問題があった。本稿で提案する半自動修正の仕組みは、自動音声認識システムが出力するテキストに対して人手による修正を行うが、作業内容として修正してもらう範囲を限定して修正語の入力のみに限定することで低コストおよび低遅延化を図る。具体的には、聴覚障害者等が字幕から内容を理解する際に影響が大きいと思われる専門用語のような語だけを修正対象とし、修正支援者に求められる作業内容はそれらの修正語の入力だけに限定する。そして、音声検索語検出(STD)を利用して修正語の出現時刻を特定してASRシステムが出力する中間表現のラティスを修正することで、半自動的な修正を実現する。提案手法では、一部の重要な修正語のみを対象として字幕修正を行うため全ての誤認識が修正されるわけではない。そこで、一回分の講義の修正字幕が得られた後、修正字幕を用いて言語モデルを講義内容に適応させることにより更なる自動修正を行う。実際に講演音声に対する自動音声認識の出力を用いて人手による修正入力を想定した評価実験を行なった結果、提案する仕組みを用いることで修正支援者の作業コストを軽減でき、2つの段階ともに字幕修正の効果が得られることが明らかになった。
抄録(英) By using Automatic Speech Recognition (ASR) technology, it is possible to subtitle lecture and other voices at low cost and in real time, which is a great help for the hearing impaired people. However, when using the ASR system, there is a problem that the recognition accuracy is greatly influenced by the fact that the technical term tends to become an unknown word especially in a university lecture and the recognition accuracy is greatly influenced by the speaker and the recording environment. In order to correct such a misrecognition result, conventional semi-automatic captioning systems require several operators for simultaneous editing, or cause a large delay for time-consuming editing work. In this paper, we propose a low cost correction method to feedback only a part of errors such as misrecognized technical terms and to identify and correct erroneously recognized segments by using Spoken Term Detection (STD) and lattice modification methods. We also adopt an unsupervised language model adaptation for additional subtitle correction after the modified online caption text were obtained for a lecture. We report the experimental result of our proposed system using the lecture speech corpus.
キーワード(和) 音声認識 / 音声検索語検出 / 自動字幕システム / 認識誤り修正 / 聴覚障害者支援
キーワード(英) Automatic Speech Recognition / Spoken Term Detection / Automatic captioning system / Recognition error correction / Supporting hearing impaired
資料番号 SP2017-50,WIT2017-46
発行日 2017-10-12 (SP, WIT)

研究会情報
研究会 WIT / SP
開催期間 2017/10/19(から2日開催)
開催地(和) 九工大戸畑図書館(北九州)
開催地(英) Tobata Library of Kyutech (Kitakyushu)
テーマ(和) 福祉情報工学と音声,一般
テーマ(英)
委員長氏名(和) 和田 親宗(九工大) / 山下 洋一(立命館大)
委員長氏名(英) Chikamune Wada(Kyushu Inst. of Tech.) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 若月 大輔(筑波技大) / 森 大毅(宇都宮大)
副委員長氏名(英) Daisuke Wakatsuki(Tsukuba Univ. of Tech.) / Hiroki Mori(Utsunomiya Univ.)
幹事氏名(和) 酒向 慎司(名工大) / 梶谷 勇(産総研) / 雨宮 智浩(NTT) / 西田 昌史(静岡大) / 坂野 秀樹(名城大)
幹事氏名(英) Shinji Sakou(Nagoya Inst. of Tech.) / Isamu Kajitani(AIST) / Tomohiro Amemiya(NTT) / Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 塩野目 剛亮(*) / 宮城 愛美(筑波技大) / 半田 隆志(埼玉県産技総合センター) / 橋本 佳(名工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Takeaki Shionome(*) / Manabi Miyagi(Tsukuba Univ. of Tech.) / Takashi Handa(Saitama Industrial Technology Center) / Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Well-being Information Technology / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 講義・講演の自動字幕システムを想定した低コストな半自動修正・適応手法
サブタイトル(和)
タイトル(英) Low Cost Semi-automatic Correction and Adaptation Method Assuming Automatic Captioning System for Lectures
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Automatic Speech Recognition
キーワード(2)(和/英) 音声検索語検出 / Spoken Term Detection
キーワード(3)(和/英) 自動字幕システム / Automatic captioning system
キーワード(4)(和/英) 認識誤り修正 / Recognition error correction
キーワード(5)(和/英) 聴覚障害者支援 / Supporting hearing impaired
第 1 著者 氏名(和/英) 田宮 健多 / Tamiya Kenta
第 1 著者 所属(和/英) 静岡大学(略称:静岡大)
Shizuoka University(略称:Shizuoka Univ.)
第 2 著者 氏名(和/英) 寺田 侑司 / Terada Yuji
第 2 著者 所属(和/英) 静岡大学(略称:静岡大)
Shizuoka University(略称:Shizuoka Univ.)
第 3 著者 氏名(和/英) 甲斐 充彦 / Kai Atsuhiko
第 3 著者 所属(和/英) 静岡大学(略称:静岡大)
Shizuoka University(略称:Shizuoka Univ.)
発表年月日 2017-10-20
資料番号 SP2017-50,WIT2017-46
巻番号(vol) vol.117
号番号(no) SP-250,WIT-251
ページ範囲 pp.89-94(SP), pp.89-94(WIT),
ページ数 6
発行日 2017-10-12 (SP, WIT)