DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発

坂口 翔太郎; 撫中 達司; 倉重 宏樹

講演名	2022-03-03 DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発坂口翔太郎(東海大), 撫中達司(東海大), 倉重宏樹(東海大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	画像と言語など複数モダリティの入力を統合し，言語応答を生成するAIシステムが開発されてきている．しかし，それらの多くはある特定用途への適用に特化したアーキテェクチャや学習設計となっており，そのままほかの課題に応用することができない．これはまた，大規模データの学習により特定課題へのチューニングなしでそれを行える「汎用モデル」の開発にも障壁になる．そこで本研究では，深層ニューラルネットアーキテクチャDALL?Eをもとに，汎用的に適用可能な画像-言語教示に対する言語応答システムの開発を試みた. 視覚質問応答課題データにて性能が評価され学習用データで50％，評価用データで36-42%の正答率を得た．一方，結果の詳細な分析から，アーキテクチャや学習データセットの選定における改善点が見出された．
抄録(英)	Recently, AI systems that make an answer to a multi-modally integrated instruction composing of texts and images have been developed. However, since such a system is directed to a specific task in respect of the architecture and the learning method, it, as is, cannot be applied to other tasks. Additionally, this situation prevents to development of general-purpose AI models which are applicable to any task without additional parameter tuning thanks to very large-scale data. Therefore, in the present study, we propose a more generally usable answering system to visual-linguistic instructions based on the DALL・E. The proposed model was evaluated using a dataset for a visual question answering task. We observed that the model had 50% and 36-42% accuracies in the training and valuation data, respectively. In addition, we found some improvements through a detailed analysis of the errors.
キーワード(和)	テキスト生成 / 画像処理 / DALL・E
キーワード(英)	Text-generation / Image-generation / DALL・E
資料番号	NC2021-62
発行日	2022-02-23 (NC)

研究会情報
研究会	MBE / NC
開催期間	2022/3/2(から3日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	NC, ME，一般
テーマ（英）
委員長氏名（和）	奥野竜平(摂南大) / 大須理英子(早大)
委員長氏名（英）	Ryuhei Okuno(Setsunan Univ.) / Rieko Osu(Waseda Univ.)
副委員長氏名（和）	堀潤一(新潟大) / 山川宏(東大)
副委員長氏名（英）	Junichi Hori(Niigata Univ.) / Hiroshi Yamakawa(Univ of Tokyo)
幹事氏名（和）	中村英夫(大阪電気通信大) / 内部英治(ATR) / 西田知史(NICT)
幹事氏名（英）	Hideo Nakamura(Osaka Electro-Communication Univ) / Eiji Uchibe(ATR) / Satoshi Nishida(NICT)
幹事補佐氏名（和）	赤澤淳(明治国際医療大学) / 湯田恵美(東北大) / 我妻伸彦(東邦大) / 栗川知己(関西医科大)
幹事補佐氏名（英）	Jun Akazawa(Meiji Univ. of Integrative Medicine) / Emi Yuda(Tohoku Univ) / Nobuhiko Wagatsuma(Toho Univ.) / Tomoki Kurikawa(KMU)

講演論文情報詳細
申込み研究会	Technical Committee on ME and Bio Cybernetics / Technical Committee on Neurocomputing
本文の言語	JPN
タイトル（和）	DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発
サブタイトル（和）
タイトル（英）	A General‐purpose Answering System to Visuo-linguistic Instructions based on a DALLE-based Architecture
サブタイトル（和）
キーワード(1)（和/英）	テキスト生成 / Text-generation
キーワード(2)（和/英）	画像処理 / Image-generation
キーワード(3)（和/英）	DALL・E / DALL・E
第 1 著者氏名（和/英）	坂口翔太郎 / Shotaro Sakaguchi
第 1 著者所属（和/英）	東海大学(略称：東海大) Tokai University(略称：Tokai Univ)
第 2 著者氏名（和/英）	撫中達司 / Tatuji Munaka
第 2 著者所属（和/英）	東海大学(略称：東海大) Tokai University(略称：Tokai Univ)
第 3 著者氏名（和/英）	倉重宏樹 / Hiroki Kurashige
第 3 著者所属（和/英）	東海大学(略称：東海大) Tokai University(略称：Tokai Univ)
発表年月日	2022-03-03
資料番号	NC2021-62
巻番号（vol）	vol.121
号番号（no）	NC-390
ページ範囲	pp.82-87(NC),
ページ数	6
発行日	2022-02-23 (NC)