講演名 2012-11-07
Gaussian process regressionを用いた確率的方策に対する方策勾配法(第15回情報論的学習理論ワークショップ)
中村 泰, 石黒 浩,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,ガウス過程回帰を用いて価値関数の学習を行う強化学習法が提案されてきた[1].ガウス過程を用いたベイズ推論により価値関数の推定を行うため,価値関数の推定値だけでなく,そのばらつきも計算可能であるが,ばらつきを直接的に学習に利用する枠組みとはなっていない.本研究では,ガウス過程回帰を用いた確率的方策に対する方策勾配法を導出する.本手法においては行動選択のばらつきが学習により変化することから,ばらつきの学習により探索搾取問題を扱うことが可能であると期待できる.提案手法を倒立振子の振り上げ課題に適用し,適切な方策を獲得可能であることを示す.
抄録(英) Reinforcement learning (RL) methods using Gaussian process regression (GP) for approximating the value function have been studied [1]. Thanks to the use of Bayesian reasoning with GPs, the variance of the output can be calculated, but there is no direct benefit by using the variance of the value estimate. In this research, we propose a policy gradient method for a GP based stochastic policy, where the output variance is utilized as the confidence in the action selection. We apply our method to a control task of the swinging up a pendulum, and simulation results show a good controller can be obtained by our method.
キーワード(和) 強化学習 / ガウス過程回帰 / 方策勾配法 / 適応制御
キーワード(英) Reinforcement learning / Gaussian process regression / policy gradient method / adaptive control
資料番号 IBISML2012-52
発行日

研究会情報
研究会 IBISML
開催期間 2012/10/31(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Information-Based Induction Sciences and Machine Learning (IBISML)
本文の言語 JPN
タイトル(和) Gaussian process regressionを用いた確率的方策に対する方策勾配法(第15回情報論的学習理論ワークショップ)
サブタイトル(和)
タイトル(英) Stochastic policy gradient method for a stochastic policy using a Gaussian process regression
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement learning
キーワード(2)(和/英) ガウス過程回帰 / Gaussian process regression
キーワード(3)(和/英) 方策勾配法 / policy gradient method
キーワード(4)(和/英) 適応制御 / adaptive control
第 1 著者 氏名(和/英) 中村 泰 / Yutaka NAKAMURA
第 1 著者 所属(和/英) 大阪大学大学院基礎工学研究科
第 2 著者 氏名(和/英) 石黒 浩 / Hiroshi ISHIGURO
第 2 著者 所属(和/英) 大阪大学大学院基礎工学研究科
発表年月日 2012-11-07
資料番号 IBISML2012-52
巻番号(vol) vol.112
号番号(no) 279
ページ範囲 pp.-
ページ数 5
発行日