複数のモデルを用いた強化学習による非線形制御方式

片桐 憲一; 銅谷 賢治; 川人 光男

講演名	1998/10/24 複数のモデルを用いた強化学習による非線形制御方式片桐憲一, 銅谷賢治, 川人光男,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	目標とすべき出力が未知である場合に、試行錯誤的に望ましい出力を学習する方式として、強化学習が理論化されている。しかし強化学習において、環境に強い非線形性、非定常性があると対処出来ないなどの問題がある。そこで本研究では、環境の局所的なモデルと強化学習システムをペアとしたモジュールを環境の予測誤差のsoftmax関数により適応的に切り替え、組み合わせる強化学習の方式について検討を行なう。具体的には制御対象に強い非線形性を持つ倒立振子の振り上げのシュミレーションを行ない、非線形性をもつ環境下において制御則の学習と、それらのを切り替え・組合せることで制御が可能なことを示す。
抄録(英)	Reinforcement learning architecture can learn to accomplish a given task in an unknown environment. However reinforcement learning architecture can not easily deal with non-stationary, non-linear systems. In this study we propose a multiple models-based reinforcement learning (MMRL) architecture in which pairs of forward-models and reinforcement learning modules are switched or combined using the softmax function of the prediction errors. We performed a simulation of the task of swinging up a pendulum. The result indicates that MMRL can accomplish a highly non-linear control task.
キーワード(和)	強化学習 / フォワードモデル / 運動制御 / 振り上げ運動
キーワード(英)	reinforcement learning / multiple models / motor control / swing up
資料番号	NC98-46
発行日

研究会情報
研究会	NC
開催期間	1998/10/24(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	複数のモデルを用いた強化学習による非線形制御方式
サブタイトル（和）
タイトル（英）	Multiple Model-based reinforcement learning for Non-linear control
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	フォワードモデル / multiple models
キーワード(3)（和/英）	運動制御 / motor control
キーワード(4)（和/英）	振り上げ運動 / swing up
第 1 著者氏名（和/英）	片桐憲一 / Kenichi Katagiri
第 1 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科:ATR人間情報通信研究所 Graduate School of Information Science, Nara Institute of Science and Technology:ART Human Information Processing Res. Labs.
第 2 著者氏名（和/英）	銅谷賢治 / Kenji Doya
第 2 著者所属（和/英）	科学技術振興事業団川人学習動態脳プロジェクト:奈良先端科学技術大学院大学情報科学研究科 Kawato Dynamic Brain Project, JST:Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者氏名（和/英）	川人光男 / Mitsuo Kawato
第 3 著者所属（和/英）	ATR人間情報通信研究所:科学技術振興事業団川人学習動態脳プロジェクト ATR Human Information Processing Res. Labs.:Kawato Dynamic Brain Project, JST
発表年月日	1998/10/24
資料番号	NC98-46
巻番号（vol）	vol.98
号番号（no）	365
ページ範囲	pp.-
ページ数	8
発行日