LMMによるStudying Papersと内発的報酬を用いた深層強化学習

長野 颯太; 山根 智

講演名	2024-01-18 LMMによるStudying Papersと内発的報酬を用いた深層強化学習長野颯太(金沢大), 山根智(金沢大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	深層強化学習と大規模言語モデル (LLM) を組み合わせた研究は，複雑なタスクを持つオープンワールドゲームにおいても高いスコアを出した．しかし，LLM ではゲームの見た目を表す画像を扱うことができず，環境の状態を自然言語で記述する必要があった．そこで，我々は画像と言語の両方を扱える大規模マルチモーダルモデル (LMM) を利用した深層強化学習手法 (LMMPaIR) を提案する．本研究では LMM を用いて，環境についての論文内の図およびキャプションから，ゲームを成功させるための情報を抽出し，その情報から内発的報酬を生成する．現在，LMMPaIR を強化学習アルゴリズム PPO と組み合わせ，Crafter 環境において実験を行っている．
抄録(英)	Research combining deep reinforcement learning with a large language model (LLM) produced high scores even for open-world games with complex tasks. However, LLM cannot handle images that represent the appearance of the game, and natural language is required to describe the state of the environment. Therefore, we propose a deep reinforcement learning method (LMMPaIR) based on a large multimodal model (LMM) that can handle both images and language. We use LMMs to extract information for successful game play from pictures and captions in a paper about the environment, and generate intrinsic rewards from this information. We are currently experimenting with LMMPaIR in combination with the reinforcement learning algorithm PPO in the Crafter.
キーワード(和)	機械学習 / 深層強化学習 / 大規模言語モデル / 大規模マルチモーダルモデル
キーワード(英)	Machine Learning / Deep Reinforcement Learning / Large Language Model / Large Multimodal Model
資料番号	MSS2023-64,SS2023-43
発行日	2024-01-10 (MSS, SS)

研究会情報
研究会	SS / MSS
開催期間	2024/1/17(から2日開催)
開催地（和）	金沢商工会議所会館（石川県金沢市）
開催地（英）
テーマ（和）	システム数理と応用，ソフトウェアサイエンスおよび一般
テーマ（英）
委員長氏名（和）	岡野浩三(信州大) / 山口真悟(山口大)
委員長氏名（英）	Kozo Okano(Shinshu Univ.) / Shingo Yamaguchi(Yamaguchi Univ.)
副委員長氏名（和）	肥後芳樹(阪大) / 宮本俊幸(阪工大)
副委員長氏名（英）	Yoshiki Higo(Osaka Univ.) / Toshiyuki Miyamoto(Osaka Inst. of Tech.)
幹事氏名（和）	小形真平(信州大) / 林晋平(東工大) / 林直樹(阪大) / 劉健全(NEC)
幹事氏名（英）	Shinpei Ogata(Shinshu Univ.) / Shinpei Hayashi(Tokyo Inst. of Tech.) / Naoki Hayashi(Osaka Univ.) / Jianquan Liui(NEC)
幹事補佐氏名（和）	?本真佑(阪大) / 白井匡人(島根大)
幹事補佐氏名（英）	Shinsuke Matsumoto(Osaka Univ.) / Masato Shirai(Shimane Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Software Science / Technical Committee on Mathematical Systems Science and its Applications
本文の言語	JPN
タイトル（和）	LMMによるStudying Papersと内発的報酬を用いた深層強化学習
サブタイトル（和）
タイトル（英）	Deep Reinforcement Learning Using LMM's Studying Papers and Intrinsic Rewards
サブタイトル（和）
キーワード(1)（和/英）	機械学習 / Machine Learning
キーワード(2)（和/英）	深層強化学習 / Deep Reinforcement Learning
キーワード(3)（和/英）	大規模言語モデル / Large Language Model
キーワード(4)（和/英）	大規模マルチモーダルモデル / Large Multimodal Model
第 1 著者氏名（和/英）	長野颯太 / Sota Nagano
第 1 著者所属（和/英）	金沢大学(略称：金沢大) Kanazawa University(略称：Kanazawa Univ.)
第 2 著者氏名（和/英）	山根智 / Satoshi Yamane
第 2 著者所属（和/英）	金沢大学(略称：金沢大) Kanazawa University(略称：Kanazawa Univ.)
発表年月日	2024-01-18
資料番号	MSS2023-64,SS2023-43
巻番号（vol）	vol.123
号番号（no）	MSS-334,SS-335
ページ範囲	pp.70-75(MSS), pp.70-75(SS),
ページ数	6
発行日	2024-01-10 (MSS, SS)