講演抄録/キーワード |
講演名 |
2008-03-14 13:20
ガウス過程を用いた能動サンプリングに基づく強化学習法 ○竹田和博・森 健(奈良先端大)・石井 信(京大) NC2007-192 |
抄録 |
(和) |
強化学習では一般に、良い方策を獲得するために多くのサンプルを生成する必
要がある。このことは、実
ロボットなどの制御を学習する場合、故障や手間などの問題を引き起
こす。
強化学習で多くのサンプルが必要になる原因の一つとして、学習エージェント
が従う方策から受動的にサンプルを生成しなければならないという制約がある。
この制約を回避して、学習に有利なサンプルを能動的にサンプリングする強化学習法が望まれ
るが、現在のところシステマティックな手法は提案されていない。本報告では、
方策の収束を保証するための条件を与えた下で、ガウ
ス過程に基づいて能動サンプリングを行う新しい強化学習法を提案する。また、
少ないサンプル数で良い方策が獲得できることを計算機実験により示す。 |
(英) |
In reinforcement learning (RL), many samples are necessary in
every policy improvement, which requires the robot actually to act many
times and hence may make the robot be broken down. One cause of the necessity of
many samples in the RL is that the agent must passively produce samples
according to it's current policy. Therefore, efficient sampling methods
such as active sampling are desired. In this report, we propose a novel
RL method with active sampling based on Gaussian process, which reduces
the number of samples necessary for policy convergence. Computer experiments show that the policy gradient
could be estimated efficiently with fewer sampling times. |
キーワード |
(和) |
強化学習 / 能動サンプリング / ガウス過程 / 方策勾配法 / ベイズ推定 / / / |
(英) |
Reinforcement learning / Active sampling / Gaussian process / Policy gradient / Bayesian inference / / / |
文献情報 |
信学技報, vol. 107, no. 542, NC2007-192, pp. 473-478, 2008年3月. |
資料番号 |
NC2007-192 |
発行日 |
2008-03-05 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2007-192 |