講演名 | 2000/5/18 オンラインEM強化学習法を用いた連続システムの自動制御 吉本 潤一郎, 石井 信, 佐藤 雅昭, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本報告では, 関数近似器と統計的学習を用いた, 連続力学システムに対する新しい強化学習法を提案する.我々の強化学習法はactor-criticアーキテクチャを用いて学習が行われる.criticは現在の状態と行動の組に対する将来の期待報酬(Q関数)を近似する.actorはQ関数値が大きい行動ほど高い確率で選択されるような確率的行動関数を近似する.actorとcriticはともに正規化ガウス関数ネットワークによって近似され, オンラインEMアルゴリズムを用いて学習が行われる.本手法が少ない試行回数から良い制御を獲得できることを2つの最適制御問題に対する計算機シミュレーションの結果により示す. |
抄録(英) | In this report, we propose a new reinforcement learning(RL)method for continuous dynamical systems by using function approximation and stochastic learning. Our RL method has an architecture like the actor-critic model. The critic tries to approximate the Q-function, which is the expected future return for the current state-action pair. The actor tries to approximate a stochastic soft-max policy defined by the Q-function. The soft-max policy is more likely to select an action that has a higher Q-function value. The on-line EM algorithm is used to train the critic and the actor. We apply this method to two control problems. Computer simulations show that our method is able to acquire faurly good control in the two tasks after a few learning trials. |
キーワード(和) | 強化学習 / actor-criticモデル / 連続力学システム / 確率モデル / EMアルゴリズム |
キーワード(英) | reinforcement learning / actor-critic model / continuous dynamical system / stochastic model / EM algorithm |
資料番号 | AI2000-5 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2000/5/18(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | オンラインEM強化学習法を用いた連続システムの自動制御 |
サブタイトル(和) | |
タイトル(英) | Automatic control of continuous systems based on on-line EM reinforcement learning |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / reinforcement learning |
キーワード(2)(和/英) | actor-criticモデル / actor-critic model |
キーワード(3)(和/英) | 連続力学システム / continuous dynamical system |
キーワード(4)(和/英) | 確率モデル / stochastic model |
キーワード(5)(和/英) | EMアルゴリズム / EM algorithm |
第 1 著者 氏名(和/英) | 吉本 潤一郎 / Yoshimoto Junichiro |
第 1 著者 所属(和/英) | 奈良先端科学技術大学院大学 Nara Institute of Science and Technology |
第 2 著者 氏名(和/英) | 石井 信 / Ishii Shin |
第 2 著者 所属(和/英) | 奈良先端科学技術大学院大学:CREST科学技術振興事業団 Nara Institute of Science and Technology :CREST, Japan Science and Technology Corporation |
第 3 著者 氏名(和/英) | 佐藤 雅昭 / Sato Masa-aki |
第 3 著者 所属(和/英) | 国際電気通信基礎技術研究所:CREST科学技術振興事業団 ATR International:CREST, Japan Science and Technology Corporation |
発表年月日 | 2000/5/18 |
資料番号 | AI2000-5 |
巻番号(vol) | vol.100 |
号番号(no) | 88 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |