講演名 | 2022-03-03 DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発 坂口 翔太郎(東海大), 撫中 達司(東海大), 倉重 宏樹(東海大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 画像と言語など複数モダリティの入力を統合し,言語応答を生成するAIシステムが開発されてきている.しかし,それらの多くはある特定用途への適用に特化したアーキテェクチャや学習設計となっており,そのままほかの課題に応用することができない.これはまた,大規模データの学習により特定課題へのチューニングなしでそれを行える「汎用モデル」の開発にも障壁になる.そこで本研究では,深層ニューラルネットアーキテクチャDALL?Eをもとに,汎用的に適用可能な画像-言語教示に対する言語応答システムの開発を試みた. 視覚質問応答課題データにて性能が評価され学習用データで50%,評価用データで36-42%の正答率を得た.一方,結果の詳細な分析から,アーキテクチャや学習データセットの選定における改善点が見出された. |
抄録(英) | Recently, AI systems that make an answer to a multi-modally integrated instruction composing of texts and images have been developed. However, since such a system is directed to a specific task in respect of the architecture and the learning method, it, as is, cannot be applied to other tasks. Additionally, this situation prevents to development of general-purpose AI models which are applicable to any task without additional parameter tuning thanks to very large-scale data. Therefore, in the present study, we propose a more generally usable answering system to visual-linguistic instructions based on the DALL・E. The proposed model was evaluated using a dataset for a visual question answering task. We observed that the model had 50% and 36-42% accuracies in the training and valuation data, respectively. In addition, we found some improvements through a detailed analysis of the errors. |
キーワード(和) | テキスト生成 / 画像処理 / DALL・E |
キーワード(英) | Text-generation / Image-generation / DALL・E |
資料番号 | NC2021-62 |
発行日 | 2022-02-23 (NC) |
研究会情報 | |
研究会 | MBE / NC |
---|---|
開催期間 | 2022/3/2(から3日開催) |
開催地(和) | オンライン開催 |
開催地(英) | Online |
テーマ(和) | NC, ME,一般 |
テーマ(英) | |
委員長氏名(和) | 奥野 竜平(摂南大) / 大須 理英子(早大) |
委員長氏名(英) | Ryuhei Okuno(Setsunan Univ.) / Rieko Osu(Waseda Univ.) |
副委員長氏名(和) | 堀 潤一(新潟大) / 山川 宏(東大) |
副委員長氏名(英) | Junichi Hori(Niigata Univ.) / Hiroshi Yamakawa(Univ of Tokyo) |
幹事氏名(和) | 中村 英夫(大阪電気通信大) / 内部 英治(ATR) / 西田 知史(NICT) |
幹事氏名(英) | Hideo Nakamura(Osaka Electro-Communication Univ) / Eiji Uchibe(ATR) / Satoshi Nishida(NICT) |
幹事補佐氏名(和) | 赤澤 淳(明治国際医療大学) / 湯田 恵美(東北大) / 我妻 伸彦(東邦大) / 栗川 知己(関西医科大) |
幹事補佐氏名(英) | Jun Akazawa(Meiji Univ. of Integrative Medicine) / Emi Yuda(Tohoku Univ) / Nobuhiko Wagatsuma(Toho Univ.) / Tomoki Kurikawa(KMU) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on ME and Bio Cybernetics / Technical Committee on Neurocomputing |
---|---|
本文の言語 | JPN |
タイトル(和) | DALLEアーキテクチャに基づくマルチモーダル教示に対する汎用応答システムの開発 |
サブタイトル(和) | |
タイトル(英) | A General‐purpose Answering System to Visuo-linguistic Instructions based on a DALLE-based Architecture |
サブタイトル(和) | |
キーワード(1)(和/英) | テキスト生成 / Text-generation |
キーワード(2)(和/英) | 画像処理 / Image-generation |
キーワード(3)(和/英) | DALL・E / DALL・E |
第 1 著者 氏名(和/英) | 坂口 翔太郎 / Shotaro Sakaguchi |
第 1 著者 所属(和/英) | 東海大学(略称:東海大) Tokai University(略称:Tokai Univ) |
第 2 著者 氏名(和/英) | 撫中 達司 / Tatuji Munaka |
第 2 著者 所属(和/英) | 東海大学(略称:東海大) Tokai University(略称:Tokai Univ) |
第 3 著者 氏名(和/英) | 倉重 宏樹 / Hiroki Kurashige |
第 3 著者 所属(和/英) | 東海大学(略称:東海大) Tokai University(略称:Tokai Univ) |
発表年月日 | 2022-03-03 |
資料番号 | NC2021-62 |
巻番号(vol) | vol.121 |
号番号(no) | NC-390 |
ページ範囲 | pp.82-87(NC), |
ページ数 | 6 |
発行日 | 2022-02-23 (NC) |