講演名 2018-06-28
音声認識のための画像特徴量を用いた言語モデルの検討
萩原 愛子(NHK), 伊藤 均(NHK), 一木 麻乃(NHK), 三島 剛(NHK), 佐藤 庄衛(NHK),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) NHKは,生放送番組の字幕制作ならびに取材映像の書き起こし生成のため音声認識を用いたシステムの開発を進めている. NHKが認識の対象とする音声には映像が付随していることが多く,映像からはドメインの推定といった言語モデル精度の向上につながる情報の取得が期待できる.そこで,画像特徴量を言語モデルに取り組む手法を2つ提案した.1つめは一般物体認識モデルの隠れ層を抽出する.2つめは自動生成された画像のキャプションを学習に用いる.一般的な再帰型言語モデルと比較して,1つめの手法においてパープレキシティが5% 低減し,提案手法の有効性を確認した.
抄録(英) NHK is pursuing the development of a system using speech recognition for the closed caption production of live broadcasting and transcription of interview video footage. In many cases, it is possible to acquire images as well as audio from video footage. From the images, it is expected to obtain information that leads to improvement of language model accuracy such as domain identification. Therefore, we proposed two methods to adopt image features to language models. The first method is to extract the hidden layer of the image recognition model, and the second is to incorporate the image description captions which automatically generated. Compared to the baseline recurrent neural network language model, perplexity decreased in the first method.
キーワード(和) 音声認識 / 言語モデル / 一般物体認識 / 画像キャプション / マルチモーダル
キーワード(英) Speech recognition / Language model / Image recognition / Image captioning
資料番号 PRMU2018-22,SP2018-2
発行日 2018-06-21 (PRMU, SP)

研究会情報
研究会 PRMU / SP
開催期間 2018/6/28(から2日開催)
開催地(和) 信州大学
開催地(英)
テーマ(和) マルチモーダル/クロスモーダルな認識、生成
テーマ(英)
委員長氏名(和) 佐藤 真一(NII) / 山下 洋一(立命館大)
委員長氏名(英) Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 井尻 善久(オムロン) / 玉木 徹(広島大) / 李 晃伸(名工大)
副委員長氏名(英) Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 石井 雅人(NEC) / 菅野 裕介(阪大) / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 入江 豪(NTT) / 牛久 祥孝(東大) / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 音声認識のための画像特徴量を用いた言語モデルの検討
サブタイトル(和)
タイトル(英) Language model utilizing image features for automatic speech recognition
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Speech recognition
キーワード(2)(和/英) 言語モデル / Language model
キーワード(3)(和/英) 一般物体認識 / Image recognition
キーワード(4)(和/英) 画像キャプション / Image captioning
キーワード(5)(和/英) マルチモーダル
第 1 著者 氏名(和/英) 萩原 愛子 / Aiko Hagiwara
第 1 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 2 著者 氏名(和/英) 伊藤 均 / Hitoshi Ito
第 2 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 3 著者 氏名(和/英) 一木 麻乃 / Manon Ichiki
第 3 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 4 著者 氏名(和/英) 三島 剛 / Takeshi Mishima
第 4 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
第 5 著者 氏名(和/英) 佐藤 庄衛 / Shoei Sato
第 5 著者 所属(和/英) 日本放送協会(略称:NHK)
Japan Broadcasting Corporation(略称:NHK)
発表年月日 2018-06-28
資料番号 PRMU2018-22,SP2018-2
巻番号(vol) vol.118
号番号(no) PRMU-111,SP-112
ページ範囲 pp.3-6(PRMU), pp.3-6(SP),
ページ数 4
発行日 2018-06-21 (PRMU, SP)