講演名 | 2002/1/22 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定 杉本 徳和, 鮫島 和行, 銅谷 賢治, 川人 光男, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本研究では, 複数の状態予測モデルと報酬予測モデルの組み合わせによって出力が決定されるモジュール強化学習方式"Combinatorial Model-based Reinforcement Learning(CMRL)″を提案する.以前に我々が提案したMMRLでは状態・報酬予測モデルとコントローラがひとつの組となって働いていたが, CMRLではそれらは全て独立に存在する.まず予測値の正確さにより状態予測モデルと報酬予測モデルの組が選ばれる.そして選ばれた組に対する各コントローラのTD誤差が計算され, 誤差の絶対値が小さかったものの制御出力値が採用される.提案方式によって, 同一のダイナミクスのもとで報酬関数が切り替わるような場合でも適切なコントローラの選択が可能になる.さらにCMRLのモジュール構造によって, 相手の運動軌道から報酬関数, つまり行動の意図を推定する見まね学習方式を提案する.相手の用いているモジュールの系列を自分のモデルを用いて推測を行うため, 両者のパラメータが異なる場合であっても, 自分の可能な範囲で見まねを行う事ができる. |
抄録(英) | This reseach presents a new reinforcement learning framework, "Combinatorial Model-based Reinforcement Learning (CMRL)", which flexibly combines forward models, reward models, and contorollers. First, appropriate forward models and reward models are selected based on the correctness of their predictions. Then an appropriate controller is selected based on the TD-error given by the models and the controllers. A similar module selection method can be applied to imitation learning that takes into account the difference in the parameters of the learner and the teacher. |
キーワード(和) | モジュール分割 / 強化学習 / 非線形制御 / 見まね学習 |
キーワード(英) | module learning / reinforcement learning / nonlinear control / imitation learning |
資料番号 | |
発行日 |
研究会情報 | |
研究会 | NC |
---|---|
開催期間 | 2002/1/22(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Neurocomputing (NC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定 |
サブタイトル(和) | |
タイトル(英) | Reinforcement Learning and Goal Estimation by Multiple Forward and Reward Models |
サブタイトル(和) | |
キーワード(1)(和/英) | モジュール分割 / module learning |
キーワード(2)(和/英) | 強化学習 / reinforcement learning |
キーワード(3)(和/英) | 非線形制御 / nonlinear control |
キーワード(4)(和/英) | 見まね学習 / imitation learning |
第 1 著者 氏名(和/英) | 杉本 徳和 / Norikazu SUGIMOTO |
第 1 著者 所属(和/英) | 奈良先端科学技術大学院大学:ATR人間情報科学研究所 第3研究室:科学技術振興事業団CREST NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation |
第 2 著者 氏名(和/英) | 鮫島 和行 / Kazuyuki SAMEJIMA |
第 2 著者 所属(和/英) | ATR人間情報科学研究所第3研究室:科学技術振興事業団CREST ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation |
第 3 著者 氏名(和/英) | 銅谷 賢治 / Kenji DOYA |
第 3 著者 所属(和/英) | 奈良先端科学技術大学院大学:ATR人間情報科学研究所第3研究室:科学技術振興事業団CREST NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3:Creating the Brain, CREST, Japan Science and Technology Corporation |
第 4 著者 氏名(和/英) | 川人 光男 / Mitsuo KAWATO |
第 4 著者 所属(和/英) | 奈良先端科学技術大学院大学:ATR人間情報科学研究所第3研究室 NAra Institute of Science and Technology:ATR, Human Information Science Laboratories, Department 3 |
発表年月日 | 2002/1/22 |
資料番号 | |
巻番号(vol) | vol.101 |
号番号(no) | 616 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |