画像内領域の顕著性を考慮する画像の説明文自動生成

吉井,和輝; エリック,ニコルズ; 船越,孝太郎; 中野,幹生; 青野,雅樹

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2016-03-24 09:30 画像内領域の顕著性を考慮する画像の説明文自動生成 ○吉井和輝（豊橋技科大）・エリックニコルズ・船越孝太郎・中野幹生（ホンダ・リサーチ・インスティチュート・ジャパン）・青野雅樹（豊橋技科大） BioX2015-41 PRMU2015-164
抄録	（和）	近年、深層学習によって画像や言語の表現力が向上したことにより、画像説明文の自動生成などマルチモーダルなタスクが実現可能となっている．画像説明文の生成のための従来の典型的なアプローチは、画像特徴量から適切な単語を出力するニューラルネットを訓練することである．画像特徴量の抽出にはCNNが用いられるが、説明文生成に必要な画像内の情報を網羅することは難しい．本研究では、顕著性マップの情報を画像の説明文の自動生成手法に取り入れることを検討する．顕著性マップにより画面中の目立ったオブジェクトの領域を算出し、そこから顕著領域の画像特徴量を生成して利用することで、これらを用いなかった場合と比較して生成される説明文の品質が向上することを示す．
	（英）	In recent years, due to advances in neural models for representing images and language, multimodal tasks like image captioning and visual QA have grown in popularity. Typical approaches are based in neural MT models where image region-text alignments are coupled with RNNs to generate captions. However, current approaches have difficulty covering all important regions in caption generation. To address this shortcoming, we introduce a novel image captioning system where salience maps are used to extract and featurize the most important image regions. In this paper, we propose several methods of generating saliency features and evaluate their impact on image captioning.
キーワード	（和）	イメージキャプショニング / ニューラルネットワーク / 顕著性マップ / / / / /
	（英）	Image Captioning / Neural Network / Saliency Map / / / / /
文献情報		信学技報, vol. 115, no. 517, PRMU2015-164, pp. 1-6, 2016年3月.
資料番号		PRMU2015-164
発行日		2016-03-17 (BioX, PRMU)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		BioX2015-41 PRMU2015-164

研究会情報
研究会	PRMU BioX
開催期間	2016-03-24 - 2016-03-25
開催地（和）	産業技術総合研究所臨海副都心センター別館
開催地（英）
テーマ（和）	マルチモーダルな人物行動認識・認証・解析技術及び著作権・プライバシー保護
テーマ（英）
講演論文情報の詳細
申込み研究会	PRMU
会議コード	2016-03-PRMU-BioX
本文の言語	日本語
タイトル（和）	画像内領域の顕著性を考慮する画像の説明文自動生成
サブタイトル（和）
タイトル（英）	Saliency Feature Representations for Image Captioning
サブタイトル（英）
キーワード(1)（和/英）	イメージキャプショニング / Image Captioning
キーワード(2)（和/英）	ニューラルネットワーク / Neural Network
キーワード(3)（和/英）	顕著性マップ / Saliency Map
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	吉井和輝 / Kazuki Yoshii / ヨシイカズキ
第1著者所属（和/英）	豊橋技術科学大学 (略称：豊橋技科大) Toyohashi University of Technology (略称： TUT)
第2著者氏名（和/英/ヨミ）	エリックニコルズ / Eric Nichols / エリックニコルズ
第2著者所属（和/英）	ホンダ・リサーチ・インスティテュート・ジャパン (略称：ホンダ・リサーチ・インスティチュート・ジャパン) Honda Research Institute Japan (略称： HRI-JP)
第3著者氏名（和/英/ヨミ）	船越孝太郎 / Kotaro Funakoshi / フナコシコウタロウ
第3著者所属（和/英）	ホンダ・リサーチ・インスティテュート・ジャパン (略称：ホンダ・リサーチ・インスティチュート・ジャパン) Honda Research Institute Japan (略称： HRI-JP)
第4著者氏名（和/英/ヨミ）	中野幹生 / Mikio Nakano / ナカノミキオ
第4著者所属（和/英）	ホンダ・リサーチ・インスティテュート・ジャパン (略称：ホンダ・リサーチ・インスティチュート・ジャパン) Honda Research Institute Japan (略称： HRI-JP)
第5著者氏名（和/英/ヨミ）	青野雅樹 / Masaki Aono / アオノマサキ
第5著者所属（和/英）	豊橋技術科学大学 (略称：豊橋技科大) Toyohashi University of Technology (略称： TUT)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2016-03-24 09:30:00
発表時間	30分
申込先研究会	PRMU
資料番号	BioX2015-41, PRMU2015-164
巻番号（vol）	vol.115
号番号（no）	no.516(BioX), no.517(PRMU)
ページ範囲	pp.1-6
ページ数	6
発行日	2016-03-17 (BioX, PRMU)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会