複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定

杉本 徳和; 鮫島 和行; 銅谷 賢治; 川人 光男

講演名	2002/1/22 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定杉本徳和, 鮫島和行, 銅谷賢治, 川人光男,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では, 複数の状態予測モデルと報酬予測モデルの組み合わせによって出力が決定されるモジュール強化学習方式"Combinatorial Model-based Reinforcement Learning(CMRL)″を提案する.以前に我々が提案したMMRLでは状態・報酬予測モデルとコントローラがひとつの組となって働いていたが, CMRLではそれらは全て独立に存在する.まず予測値の正確さにより状態予測モデルと報酬予測モデルの組が選ばれる.そして選ばれた組に対する各コントローラのTD誤差が計算され, 誤差の絶対値が小さかったものの制御出力値が採用される.提案方式によって, 同一のダイナミクスのもとで報酬関数が切り替わるような場合でも適切なコントローラの選択が可能になる.さらにCMRLのモジュール構造によって, 相手の運動軌道から報酬関数, つまり行動の意図を推定する見まね学習方式を提案する.相手の用いているモジュールの系列を自分のモデルを用いて推測を行うため, 両者のパラメータが異なる場合であっても, 自分の可能な範囲で見まねを行う事ができる.
抄録(英)	This reseach presents a new reinforcement learning framework, "Combinatorial Model-based Reinforcement Learning (CMRL)", which flexibly combines forward models, reward models, and contorollers. First, appropriate forward models and reward models are selected based on the correctness of their predictions. Then an appropriate controller is selected based on the TD-error given by the models and the controllers. A similar module selection method can be applied to imitation learning that takes into account the difference in the parameters of the learner and the teacher.
キーワード(和)	モジュール分割 / 強化学習 / 非線形制御 / 見まね学習
キーワード(英)	module learning / reinforcement learning / nonlinear control / imitation learning
資料番号
発行日

研究会情報
研究会	NC
開催期間	2002/1/22(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
サブタイトル（和）
タイトル（英）	Reinforcement Learning and Goal Estimation by Multiple Forward and Reward Models
サブタイトル（和）
キーワード(1)（和/英）	モジュール分割 / module learning
キーワード(2)（和/英）	強化学習 / reinforcement learning
キーワード(3)（和/英）	非線形制御 / nonlinear control
キーワード(4)（和/英）	見まね学習 / imitation learning
第 1 著者氏名（和/英）	杉本徳和 / Norikazu SUGIMOTO
第 1 著者所属（和/英）	奈良先端科学技術大学院大学:ATR人間情報科学研究所第3研究室:科学技術振興事業団CREST NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation
第 2 著者氏名（和/英）	鮫島和行 / Kazuyuki SAMEJIMA
第 2 著者所属（和/英）	ATR人間情報科学研究所第3研究室:科学技術振興事業団CREST ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation
第 3 著者氏名（和/英）	銅谷賢治 / Kenji DOYA
第 3 著者所属（和/英）	奈良先端科学技術大学院大学:ATR人間情報科学研究所第3研究室:科学技術振興事業団CREST NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation
第 4 著者氏名（和/英）	川人光男 / Mitsuo KAWATO
第 4 著者所属（和/英）	奈良先端科学技術大学院大学:ATR人間情報科学研究所第3研究室 NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3
発表年月日	2002/1/22
資料番号
巻番号（vol）	vol.101
号番号（no）	616
ページ範囲	pp.-
ページ数	8
発行日