講演名 2018-10-28
生放送番組向けの自動解説音声の挿入タイミング決定法
一木 麻乃(NHK), 熊野 正(NHK), 今井 篤(NHK), 都木 徹(NHKエンジニアリングシステム),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 我々は,視覚障がい者への放送サービスをより充実させることを目的に,自動的に解説音声を付与する技術の研究を進めている.その場合,状況によっては放送のアナウンサーや出演者の発話と,解説音声がオーバーラップすることがあり,聞き取り辛くなるという課題がある.基本的に双方が提示する情報は異なるため,可能な限り双方のオーバーラップを回避することが,すべての情報の聴取を可能とすることにつながる.本稿では,スポーツ番組において,実況アナウンサーや解説者の発話中に解説音声が挿入されることがないように,実況アナウンサーや解説者の発話末を予測することで,解説音声の挿入タイミングを決定する手法を提案する.提案手法では,生放送番組での活用も考慮し,リアルタイム処理が可能な基本周波数の長期・短期の移動平均の差を用いることで発話末を予測した.人手で決定した発話末の時刻と予測タイミングとを比較して性能を評価した結果,提案手法の有効性が示された.
抄録(英) We are conducting research on "automated audio description (ADD)" which automatically generates audio descriptions for visually impaired people to enjoy live TV programs. However, there is a problem that AAD overlaps with the live television commentary voice, making it difficult to hear each other's comment. It is necessary, therefore, to avoid their overlaps to understand both television commentary and ADD. In this paper, we propose timing determination method to insert ADDs into live sports programs. The method predicts the end of utterance of every live commentary by announcer and/or commentator, and ADDs can be inserted after live commentaries. In this method, difference between long and short term moving average of fundamental frequency (F0) extracted every 5ms is adopted to predict end of utterances. The effectiveness of proposed method was shown by comparing predicted and manually determined timing from live sports commentaries.
キーワード(和) 解説放送 / 視覚障がい者 / 発話末 / 基本周波数 / 移動平均
キーワード(英) Audio Description / Visually Impaired People / The End of Utterance / Fundamental frequency / Moving Average
資料番号 SP2018-41,WIT2018-29
発行日 2018-10-20 (SP, WIT)

研究会情報
研究会 WIT / SP
開催期間 2018/10/27(から2日開催)
開催地(和) 九工大・百周年中村記念館
開催地(英) Kyushu Institute of Technology(Kitakyushu)
テーマ(和) 音声と福祉情報工学,一般
テーマ(英)
委員長氏名(和) 和田 親宗(九工大) / 山下 洋一(立命館大)
委員長氏名(英) Chikamune Wada(Kyushu Inst. of Tech.) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 若月 大輔(筑波技大) / 李 晃伸(名工大)
副委員長氏名(英) Daisuke Wakatsuki(Tsukuba Univ. of Tech.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 梶谷 勇(産総研) / 酒向 慎司(名工大) / 雨宮 智浩(NTT) / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Isamu Kajitani(AIST) / Shinji Sakou(Nagoya Inst. of Tech.) / Tomohiro Amemiya(NTT) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 宮城 愛美(筑波技術大) / 塩野目 剛亮(帝京大) / 半田 隆志(埼玉県産業技術総合センター) / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Manabi Miyagi(Tsukuba Univ. of Tech.) / Takeaki Shionome(Teikyo Univ.) / Takashi Handa(Saitama Industrial Tech. Center) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Well-being Information Technology / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 生放送番組向けの自動解説音声の挿入タイミング決定法
サブタイトル(和) スポーツ中継における実況音声の発話末予測
タイトル(英) Timing determination method to insert an automated audio description in live television broadcast
サブタイトル(和) *
キーワード(1)(和/英) 解説放送 / Audio Description
キーワード(2)(和/英) 視覚障がい者 / Visually Impaired People
キーワード(3)(和/英) 発話末 / The End of Utterance
キーワード(4)(和/英) 基本周波数 / Fundamental frequency
キーワード(5)(和/英) 移動平均 / Moving Average
第 1 著者 氏名(和/英) 一木 麻乃 / Manon Ichiki
第 1 著者 所属(和/英) NHK放送技術研究所(略称:NHK)
NHK Science&Technology Research Laboratories(略称:NHK)
第 2 著者 氏名(和/英) 熊野 正 / Tadashi Kumano
第 2 著者 所属(和/英) NHK放送技術研究所(略称:NHK)
NHK Science&Technology Research Laboratories(略称:NHK)
第 3 著者 氏名(和/英) 今井 篤 / Atsushi Imai
第 3 著者 所属(和/英) NHK放送技術研究所(略称:NHK)
NHK Science&Technology Research Laboratories(略称:NHK)
第 4 著者 氏名(和/英) 都木 徹 / Tohru Takagi
第 4 著者 所属(和/英) NHKエンジニアリングシステム(略称:NHKエンジニアリングシステム)
NHK Engineering Systems(略称:NHK-ES)
発表年月日 2018-10-28
資料番号 SP2018-41,WIT2018-29
巻番号(vol) vol.118
号番号(no) SP-269,WIT-270
ページ範囲 pp.45-50(SP), pp.45-50(WIT),
ページ数 6
発行日 2018-10-20 (SP, WIT)