講演抄録/キーワード |
講演名 |
2020-03-16 11:00
意味と形状の分離によるマルチモーダルレシピ検索及び画像生成 ○杉山 優・柳井啓司(電通大) PRMU2019-70 |
抄録 |
(和) |
近年のレシピに関する情報技術は大きく発展しており,CookpadやAllRecipesなど,レシピ投稿サイトが多く存在している.この膨大なデータを利用したディープラーニングによるレシピ検索が広く研究されている.特にRecipe1Mデータセットが提供されてからは大規模なテキストと画像を利用した検索手法が多く提案されている.
本研究ではこのマルチモーダル検索タスクに対して,テキスト情報と画像情報の両者同じ空間へのエンベッディングを行い,さらに画像生成を用いることで高精度で中間表現が確認できる検索を可能にする手法であるRDEGAN(Recipe Disentangled Embedding GAN)を提案した.マルチモーダル検索を共有空間へのエンベッディングを通して行うことで,テキストと画像の双方向の検索が可能になる.
また,学習の過程において,料理画像の形状と意味を分離することで,検索の精度を改善するとともに生成する画像を実画像により近づけた.さらに,生成した形状と意味の画像中間表現が意味空間において連続的であることを実験で示した. |
(英) |
(Not available yet) |
キーワード |
(和) |
マルチモーダル検索 / 画像生成 / 画像特徴の意味と形状の分離 / / / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 119, no. 481, PRMU2019-70, pp. 27-32, 2020年3月. |
資料番号 |
PRMU2019-70 |
発行日 |
2020-03-09 (PRMU) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2019-70 |