音声認識のための画像特徴量を用いた言語モデルの検討

萩原 愛子; 伊藤 均; 一木 麻乃; 三島 剛; 佐藤 庄衛

講演名	2018-06-28 音声認識のための画像特徴量を用いた言語モデルの検討萩原愛子(NHK), 伊藤均(NHK), 一木麻乃(NHK), 三島剛(NHK), 佐藤庄衛(NHK),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	NHKは，生放送番組の字幕制作ならびに取材映像の書き起こし生成のため音声認識を用いたシステムの開発を進めている． NHKが認識の対象とする音声には映像が付随していることが多く，映像からはドメインの推定といった言語モデル精度の向上につながる情報の取得が期待できる．そこで，画像特徴量を言語モデルに取り組む手法を2つ提案した．1つめは一般物体認識モデルの隠れ層を抽出する．2つめは自動生成された画像のキャプションを学習に用いる．一般的な再帰型言語モデルと比較して，1つめの手法においてパープレキシティが5% 低減し，提案手法の有効性を確認した．
抄録(英)	NHK is pursuing the development of a system using speech recognition for the closed caption production of live broadcasting and transcription of interview video footage. In many cases, it is possible to acquire images as well as audio from video footage. From the images, it is expected to obtain information that leads to improvement of language model accuracy such as domain identification. Therefore, we proposed two methods to adopt image features to language models. The first method is to extract the hidden layer of the image recognition model, and the second is to incorporate the image description captions which automatically generated. Compared to the baseline recurrent neural network language model, perplexity decreased in the first method.
キーワード(和)	音声認識 / 言語モデル / 一般物体認識 / 画像キャプション / マルチモーダル
キーワード(英)	Speech recognition / Language model / Image recognition / Image captioning
資料番号	PRMU2018-22,SP2018-2
発行日	2018-06-21 (PRMU, SP)

研究会情報
研究会	PRMU / SP
開催期間	2018/6/28(から2日開催)
開催地（和）	信州大学
開催地（英）
テーマ（和）	マルチモーダル/クロスモーダルな認識、生成
テーマ（英）
委員長氏名（和）	佐藤真一(NII) / 山下洋一(立命館大)
委員長氏名（英）	Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名（和）	井尻善久(オムロン) / 玉木徹(広島大) / 李晃伸(名工大)
副委員長氏名（英）	Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名（和）	石井雅人(NEC) / 菅野裕介(阪大) / 南條浩輝(京大) / 坂野秀樹(名城大)
幹事氏名（英）	Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名（和）	入江豪(NTT) / 牛久祥孝(東大) / 郡山知樹(東工大) / 小橋川哲(NTT)
幹事補佐氏名（英）	Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語	JPN
タイトル（和）	音声認識のための画像特徴量を用いた言語モデルの検討
サブタイトル（和）
タイトル（英）	Language model utilizing image features for automatic speech recognition
サブタイトル（和）
キーワード(1)（和/英）	音声認識 / Speech recognition
キーワード(2)（和/英）	言語モデル / Language model
キーワード(3)（和/英）	一般物体認識 / Image recognition
キーワード(4)（和/英）	画像キャプション / Image captioning
キーワード(5)（和/英）	マルチモーダル
第 1 著者氏名（和/英）	萩原愛子 / Aiko Hagiwara
第 1 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 2 著者氏名（和/英）	伊藤均 / Hitoshi Ito
第 2 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 3 著者氏名（和/英）	一木麻乃 / Manon Ichiki
第 3 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 4 著者氏名（和/英）	三島剛 / Takeshi Mishima
第 4 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 5 著者氏名（和/英）	佐藤庄衛 / Shoei Sato
第 5 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
発表年月日	2018-06-28
資料番号	PRMU2018-22,SP2018-2
巻番号（vol）	vol.118
号番号（no）	PRMU-111,SP-112
ページ範囲	pp.3-6(PRMU), pp.3-6(SP),
ページ数	4
発行日	2018-06-21 (PRMU, SP)