講演抄録/キーワード |
講演名 |
2017-10-20 10:40
講義・講演の自動字幕システムを想定した低コストな半自動修正・適応手法 ○田宮健多・寺田侑司・甲斐充彦(静岡大) SP2017-50 WIT2017-46 |
抄録 |
(和) |
自動音声認識(ASR)技術を利用することで、講義等の音声を低コスト、リアルタイムに字幕化することができ、聴覚障害者にとって大きな助けとなる。しかしASRシステムを用いる場合、特に大学講義では専門用語が未知語となりやすいことや、話者や収録環境によって認識精度が大きく左右される問題がある。このような誤認識結果を修正するために、従来では複数のオペレータが必要で高コストであったり、大きな遅延が生じる問題があった。本稿で提案する半自動修正の仕組みは、自動音声認識システムが出力するテキストに対して人手による修正を行うが、作業内容として修正してもらう範囲を限定して修正語の入力のみに限定することで低コストおよび低遅延化を図る。具体的には、聴覚障害者等が字幕から内容を理解する際に影響が大きいと思われる専門用語のような語だけを修正対象とし、修正支援者に求められる作業内容はそれらの修正語の入力だけに限定する。そして、音声検索語検出(STD)を利用して修正語の出現時刻を特定してASRシステムが出力する中間表現のラティスを修正することで、半自動的な修正を実現する。提案手法では、一部の重要な修正語のみを対象として字幕修正を行うため全ての誤認識が修正されるわけではない。そこで、一回分の講義の修正字幕が得られた後、修正字幕を用いて言語モデルを講義内容に適応させることにより更なる自動修正を行う。実際に講演音声に対する自動音声認識の出力を用いて人手による修正入力を想定した評価実験を行なった結果、提案する仕組みを用いることで修正支援者の作業コストを軽減でき、2つの段階ともに字幕修正の効果が得られることが明らかになった。 |
(英) |
By using Automatic Speech Recognition (ASR) technology, it is possible to subtitle lecture and other voices at low cost and in real time, which is a great help for the hearing impaired people. However, when using the ASR system, there is a problem that the recognition accuracy is greatly influenced by the fact that the technical term tends to become an unknown word especially in a university lecture and the recognition accuracy is greatly influenced by the speaker and the recording environment. In order to correct such a misrecognition result, conventional semi-automatic captioning systems require several operators for simultaneous editing, or cause a large delay for time-consuming editing work. In this paper, we propose a low cost correction method to feedback only a part of errors such as misrecognized technical terms and to identify and correct erroneously recognized segments by using Spoken Term Detection (STD) and lattice modification methods. We also adopt an unsupervised language model adaptation for additional subtitle correction after the modified online caption text were obtained for a lecture. We report the experimental result of our proposed system using the lecture speech corpus. |
キーワード |
(和) |
音声認識 / 音声検索語検出 / 自動字幕システム / 認識誤り修正 / 聴覚障害者支援 / / / |
(英) |
Automatic Speech Recognition / Spoken Term Detection / Automatic captioning system / Recognition error correction / Supporting hearing impaired / / / |
文献情報 |
信学技報, vol. 117, no. 250, SP2017-50, pp. 89-94, 2017年10月. |
資料番号 |
SP2017-50 |
発行日 |
2017-10-12 (SP, WIT) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
SP2017-50 WIT2017-46 |