講演名 2009-03-13
グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習
田中 芳典, 石川 眞澄,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ゴールまでの最適行動を強化学習によって求めるという課題に対し,ゴール到達時の環境からの外部報酬に加えて,好奇心を内部報酬とすることにより,強化学習を効率化することを目的とする.ここで予測誤差の減少により好奇心を定義し、センサー情報から推定したグリッドベース地図と、各グリッドでのセンサー情報との差を予測誤差と定義する.シミュレーション実験の結果,強化学習と比較して過渡状態におけるゴール回数や行動回数に関して性能の向上が見られた.併せて、提案手法で用いた各パラメータ値が行動獲得や環境学習に与える影響についても検討した.
抄録(英) The present paper proposes to make reinforcement learning efficient by using internal rewards based on curiosity in addition to external rewards at goal in a goal reaching task. Here, curiosity is defined by the decrease in prediction error, which is defined by the difference between grid-based map and the sensory information at each grid. Simulation experiments indicate that the performance of the proposed method is superior to the conventional reinforcement learning in terms of the number of goals reached and the number of actions needed to reach the goal in a transient state. How parameter values affect the performance and learning of the environment is also analyzed.
キーワード(和) 強化学習 / グリッドベース地図 / 好奇心 / 内部報酬
キーワード(英) reinforcement learning / grid-based map / curiosity / internal reward
資料番号 NC2008-151
発行日

研究会情報
研究会 NC
開催期間 2009/3/4(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) グリッドベース地図誤差に基づく好奇心を内部報酬とする強化学習
サブタイトル(和)
タイトル(英) Reinforcement Learning with Internal Rewards Based on Error in a Grid-based Map
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) グリッドベース地図 / grid-based map
キーワード(3)(和/英) 好奇心 / curiosity
キーワード(4)(和/英) 内部報酬 / internal reward
第 1 著者 氏名(和/英) 田中 芳典 / Yoshifumi TANAKA
第 1 著者 所属(和/英) 九州工業大学大学院生命体工学研究科
Department of Brain Science and Engineering, Graduate School of Life Science & Engineering, Kyushu Institute of Technology
第 2 著者 氏名(和/英) 石川 眞澄 / Masumi ISHIKAWA
第 2 著者 所属(和/英) 九州工業大学大学院生命体工学研究科
Department of Brain Science and Engineering, Graduate School of Life Science & Engineering, Kyushu Institute of Technology
発表年月日 2009-03-13
資料番号 NC2008-151
巻番号(vol) vol.108
号番号(no) 480
ページ範囲 pp.-
ページ数 6
発行日