講演名 2000/7/11
NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
鮫島 和行, 銅谷 賢治, 川人 光男,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 我々はこれまで、状態予測の正確さによって時間空間的な分割/統合を行う強化学習アーキテクチャであるMultiple model-based reinforcement learning[1, 2].を提案してきた。本報告では、責任信号の時間変化と各モジュールの状態評価値の差を用いて計算される「モジュール遷移疑似報酬」を導入し、遷移後のモジュールの評価値を積極的に遷移前の評価関数に伝搬させる手法を提案する。この手法によって、従来の責任信号のみで誤差を伝搬していたlprMMRLよりも効率的に、かつ安定に各モジュールで評価関数が学習されることを示す。
抄録(英) In this report, we propose a new method for realizing globally optimal policies in the multiple model based reinforcement learning(NNRL)architecture[1]. MMRL decomposes a task in space and time by the"responsibility signal", which is a soft max function of the errors of local prediction models The proposed method is an extension to MMRL which used local prediction models for module selection by the responsibility signal that decompose environment softly in space and time.We introduce a module switching pseudo reward(MSPR)so that the weighted sum of modular value function are globally consistent. MSPR is given by the temporal difference of the responsibility signal and the difference in the value functions between switching modules. Thus MSPR enables the global value estimate to propagate between local modules. We test the performance of the proposed method in a non-linear control task of pendulum swing-up with limited torque. We show in simulation that the task is learned more quickly and robustly by the proposed method than by conventional MMRL.
キーワード(和) 強化学習 / 複数予測モデル / モジュール遷移疑似報酬
キーワード(英) reinforcement learning / multiple prediction models / module switching pseudo reward
資料番号 NC2000-48
発行日

研究会情報
研究会 NC
開催期間 2000/7/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
サブタイトル(和)
タイトル(英) Module-level Credit Assignment in Multiple Model-based Reinforcement Learning
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) 複数予測モデル / multiple prediction models
キーワード(3)(和/英) モジュール遷移疑似報酬 / module switching pseudo reward
第 1 著者 氏名(和/英) 鮫島 和行 / Kazuyuki Samejima
第 1 著者 所属(和/英) 科学技術振興事業団ERATO川人学習動態脳プロジェクト
ERATO Kawato Dynamic Brain project, Japan Science and Technology Corporation
第 2 著者 氏名(和/英) 銅谷 賢治 / Kenji Doya
第 2 著者 所属(和/英) 国際電気通信基礎技術研究所情報科学研究部:科学技術振興事業団CREST
Information Sciences Devision, ATR International:CREST, Japan Science and Technology Corporation
第 3 著者 氏名(和/英) 川人 光男 / Mitsuo Kawato
第 3 著者 所属(和/英) 科学技術振興事業団ERATO川人学習動態脳プロジェクト:ATR人間情報通信研究所
ERATO Kawato Dynamic Brain project, Japan Science and Technology Corporation:ATR Human Information Processing Research Laboratories
発表年月日 2000/7/11
資料番号 NC2000-48
巻番号(vol) vol.100
号番号(no) 191
ページ範囲 pp.-
ページ数 8
発行日