講演名 2016-10-06
テキストクエリで指定した画像中の領域を特定する一手法
遠藤 昂(豊橋技科大), 船越 孝太郎(HRI-J), エリック ニコルズ(HRI-J), 青野 雅樹(豊橋技科大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テキストクエリで指定した画像中の領域を特定する手法を開発したので報告する.入力は画像と領域を示すテキストで,出力は矩形領域(x,y,w,h)((x,y)は領域左上の座標,wは幅,hは高さ)という問題に対して,深層学習を応用したモデルを構築し,回帰問題に帰着させた提案方法を述べる.回帰を用いることであらかじめ候補領域の予測を行う必要がなくなる.評価にはノースキャロライナ大学が開発したデータセットReferItを用いた.その結果,矩形領域の4つのパラメータを独立に予測するベースライン手法や候補領域にランキングを付けるHuらの手法cite{Hu}より優れた精度に達した.
抄録(英) We propose a method to identify the area in the image that corresponds to a user's text query. The input to the system is the image and the text representing the area. The output from the system is the bounding box (x, y, w, h), where (x, y) is the upper-left corner coordinates of the area, w is its width, and h is its height. We treat area prediction as a regression problem and train deep neural network model directly the input image and query text, eliminating the need for external candidate region prediction. In evaluation on the "ReferIt" dataset, provided by the University of North Carolina, our proposed approach achieves state-of-the-art performance, surpassing a baseline system that learns independent regressions model for each of the four parameters and the candidate generation and ranking approach of Hu et al.[2]
キーワード(和) 深層学習 / テキストクエリ / 領域特定 / 回帰
キーワード(英) deep learning / query texts / bounding box / regression
資料番号 IE2016-66
発行日 2016-09-29 (IE)

研究会情報
研究会 IE / ITE-ME / ITE-AIT
開催期間 2016/10/6(から2日開催)
開催地(和) 福岡大学
開催地(英)
テーマ(和) 感性とメディアおよび高精細度画像処理,一般
テーマ(英)
委員長氏名(和) 高村 誠之(NTT) / 長谷山 美紀(北大) / 高橋 時市郎(東京電機大)
委員長氏名(英) Seishi Takamura(NTT) / Miki Haseyama(Hokkaido Univ.) / Tokiichiro Takahashi(TDU)
副委員長氏名(和) 浜本 隆之(東京理科大) / 市ヶ谷 敦郎(NHK) / 田川 憲男(首都大)
副委員長氏名(英) Takayuki Hamamoto(Tokyo Univ. of Science) / Atsuro Ichigaya(NHK) / Norio Tagawa(Tokyo Metropolitan Univ.)
幹事氏名(和) 坂東 幸浩(NTT) / 宮田 高道(千葉工大)
幹事氏名(英) Yukihiro Bandoh(NTT) / Takamichi Miyata(Chiba Inst. of Tech.)
幹事補佐氏名(和) 河村 圭(KDDI研) / 高橋 桂太(名大)
幹事補佐氏名(英) Kei Kawamura(KDDI R&D Labs.) / Keita Takahashi(Nagoya Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Image Engineering / Technical Group on Media Engineering / Technical Group on Artistic Image Technology
本文の言語 JPN
タイトル(和) テキストクエリで指定した画像中の領域を特定する一手法
サブタイトル(和)
タイトル(英) A Method for Predicting Image Region Specified by Query Texts
サブタイトル(和)
キーワード(1)(和/英) 深層学習 / deep learning
キーワード(2)(和/英) テキストクエリ / query texts
キーワード(3)(和/英) 領域特定 / bounding box
キーワード(4)(和/英) 回帰 / regression
第 1 著者 氏名(和/英) 遠藤 昂 / Kou Endo
第 1 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 2 著者 氏名(和/英) 船越 孝太郎 / Kotarou Funakoshi
第 2 著者 所属(和/英) 株式会社ホンダリサーチインスティチュート・ジャパン(略称:HRI-J)
Honda Research Institute Japan(略称:HRI-J)
第 3 著者 氏名(和/英) エリック ニコルズ / Eric Nichols
第 3 著者 所属(和/英) 株式会社ホンダリサーチインスティチュート・ジャパン(略称:HRI-J)
Honda Research Institute Japan(略称:HRI-J)
第 4 著者 氏名(和/英) 青野 雅樹 / Masaki Aono
第 4 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
発表年月日 2016-10-06
資料番号 IE2016-66
巻番号(vol) vol.116
号番号(no) IE-239
ページ範囲 pp.7-12(IE),
ページ数 6
発行日 2016-09-29 (IE)