講演名 2020-03-16
意味と形状の分離によるマルチモーダルレシピ検索及び画像生成
杉山 優(電通大), 柳井 啓司(電通大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年のレシピに関する情報技術は大きく発展しており,CookpadやAllRecipesなど,レシピ投稿サイトが多く存在している.この膨大なデータを利用したディープラーニングによるレシピ検索が広く研究されている.特にRecipe1Mデータセットが提供されてからは大規模なテキストと画像を利用した検索手法が多く提案されている.本研究ではこのマルチモーダル検索タスクに対して,テキスト情報と画像情報の両者同じ空間へのエンベッディングを行い,さらに画像生成を用いることで高精度で中間表現が確認できる検索を可能にする手法であるRDEGAN(Recipe Disentangled Embedding GAN)を提案した.マルチモーダル検索を共有空間へのエンベッディングを通して行うことで,テキストと画像の双方向の検索が可能になる.また,学習の過程において,料理画像の形状と意味を分離することで,検索の精度を改善するとともに生成する画像を実画像により近づけた.さらに,生成した形状と意味の画像中間表現が意味空間において連続的であることを実験で示した.
抄録(英)
キーワード(和) マルチモーダル検索 / 画像生成 / 画像特徴の意味と形状の分離
キーワード(英)
資料番号 PRMU2019-70
発行日 2020-03-09 (PRMU)

研究会情報
研究会 PRMU / IPSJ-CVIM
開催期間 2020/3/16(から2日開催)
開催地(和) 京都大学
開催地(英)
テーマ(和) 安全安心、セキュリティ・防災
テーマ(英)
委員長氏名(和) 佐藤 洋一(東大)
委員長氏名(英) Yoichi Sato(Univ. of Tokyo)
副委員長氏名(和) 玉木 徹(広島大) / 木村 昭悟(NTT)
副委員長氏名(英) Toru Tamaki(Hiroshima Univ.) / Akisato Kimura(NTT)
幹事氏名(和) 入江 豪(NTT) / 牛久 祥孝(オムロンサイニックエックス)
幹事氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(OMRON SINICX)
幹事補佐氏名(和) 内田 祐介(DeNA) / 山下 隆義(中部大)
幹事補佐氏名(英) Yusuke Uchida(DeNA) / Takayoshi Yamashita(Chubu Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) 意味と形状の分離によるマルチモーダルレシピ検索及び画像生成
サブタイトル(和)
タイトル(英) Multimodal Recipe Search and Image Generation by Disentangling Contents and Styles
サブタイトル(和)
キーワード(1)(和/英) マルチモーダル検索
キーワード(2)(和/英) 画像生成
キーワード(3)(和/英) 画像特徴の意味と形状の分離
第 1 著者 氏名(和/英) 杉山 優 / Yu Sugiyama
第 1 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications, Tokyo(略称:UEC)
第 2 著者 氏名(和/英) 柳井 啓司 / Keiji Yanai
第 2 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications, Tokyo(略称:UEC)
発表年月日 2020-03-16
資料番号 PRMU2019-70
巻番号(vol) vol.119
号番号(no) PRMU-481
ページ範囲 pp.27-32(PRMU),
ページ数 6
発行日 2020-03-09 (PRMU)