変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般)

松原 崇充; 森本 淳; 中西 淳; 佐藤 雅昭; 銅谷 賢治

講演名	2005/10/11 変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般) 松原崇充, 森本淳, 中西淳, 佐藤雅昭, 銅谷賢治,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	自然方策勾配法は, 従来の方策勾配法に見られるような, 方策パラメータ空間の構造に依存して生じる学習の停滞を回避し, より効率的に方策を改善する手法として近年注目されている.しかしながら, 従来研究において提案されている最小二乗法に基づく自然方策勾配の推定法では, 現在の方策に基づいて得られたサンプルデータセットが不十分である場合には, 推定される解の一意性が保証されないため, 勾配の推定が困難となる.本報告で提案する変分ベイズ法に基づく自然方策勾配の推定手法では, スパース事前分布を自然方策勾配及び状態価値関数の関数近似重みの事前分布として導入し, その分散パラメータもサンプルデータから同時に推定する.これにより, 推定結果に影響を及ぼさない基底は自動的に淘汰されるため, 最小二乗法では解の推定が困難なサンプルデータセットを用いた場合にも, 可能な範囲での方策勾配及び状態価値関数を推定することができる.簡単な物理系に対して適用し, 従来手法との性能比較を行うことにより, 提案手法の有効性を検証する。
抄録(英)	Recently, natural policy gradient methods have been drawing much attention as a method for improving a policy in reinforcement learning tasks. Learning with natural policy gradient methods can be much more efficient compared to ordinary policy gradient methods because natural gradient represents the steepest gradient direction in the policy parameter space with any underlying structure. However, when the data set sampled from the current policy is insufficient, a least squares based method proposed in a previous study cannot obtain a unique solution. In this paper, we propose an algorithm to estimate natural policy gradient based on a variational Bayesian method to avoid such an ill-posed problem. In the proposed algorithm. we introduce sparse prior distributions as priors for natural policy gradient and the weights of the function approximator for the value function, and also estimate the variance parameters of these sparse prior distributions from the sampled data. Thus, we can estimate the best possible natural policy gradient and value function even from the limited data set because in the proposed method. the basis functions which do not effectively explain the data will be automatically identified by the estimated variance parameters. We demonstrate that the proposed method achieves better performance in a reinforcement learning task of stabilizing an inverted pendulum, as an example. in comparison to the previous least squares based method.
キーワード(和)	強化学習 / 自然方策勾配法 / 変分ベイズ法
キーワード(英)	Reinforcement learning / natural policy gradient method / variational Bayesian method
資料番号	NC2005-52
発行日

研究会情報
研究会	NC
開催期間	2005/10/11(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般)
サブタイトル（和）
タイトル（英）	Variational Bayesian method for estimating natural policy gradient
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / Reinforcement learning
キーワード(2)（和/英）	自然方策勾配法 / natural policy gradient method
キーワード(3)（和/英）	変分ベイズ法 / variational Bayesian method
第 1 著者氏名（和/英）	松原崇充 / Takamitsu MATSUBARA
第 1 著者所属（和/英）	奈良先端科学技術大学院大学:ATR脳情報研究所 Nara Institute of Science and Technology:ATR, CNS
第 2 著者氏名（和/英）	森本淳 / Jun MORIMOTO
第 2 著者所属（和/英）	ATR脳情報研究所:科学技術振興機構ICORP ATR, CNS:ICORP, JST
第 3 著者氏名（和/英）	中西淳 / Jun NAKANISHI
第 3 著者所属（和/英）	ATR脳情報研究所:科学技術振興機構ICORP ATR, CNS:ICORP, JST
第 4 著者氏名（和/英）	佐藤雅昭 / Masaaki SATO
第 4 著者所属（和/英）	ATR脳情報研究所 ATR, CNS
第 5 著者氏名（和/英）	銅谷賢治 / Kenji DOYA
第 5 著者所属（和/英）	沖縄大学院大学先行的研究事業計算神経ユニット:ATR脳情報研究所:奈良先端科学技術大学院大学 Neural Computation Unit, Initial Research Project, Okinawa Institute of Science and Technology:ATR, CNS:Nara Institute of Science and Technology
発表年月日	2005/10/11
資料番号	NC2005-52
巻番号（vol）	vol.105
号番号（no）	342
ページ範囲	pp.-
ページ数	6
発行日