講演抄録/キーワード |
講演名 |
2005-07-25 15:50
確率的連続行動の強化学習 ~ 直交関数展開による確率密度関数の近似 ~ ○佐藤仁樹(公立はこだて未来大) |
抄録 |
(和) |
本報告では,連続行動連続状態のMarkov決定過程により記述された環境において,強化学習の一手法であるactor-criticにより,任意の確率密度関数で表現された最適な方策を決定する方法を提案する.連続行動連続状態のactor-criticにおける方策は,行動の確率密度関数に従って行動を確率的に決定することにより実現される.そのため,行動の確率密度関数を学習するには,確率密度関数を近似的に表す関数近似器が必要となる.近似精度と汎化能力に優れた関数近似は,直交関数系を基底として用いることにより実現できる.しかしながら,確率密度関数は正値であるため,実数空間における直交関数系で展開できないという問題がある.本報告では,複素正規直交関数系で展開された波動関数の積で確率密度関数を近似する方法を提案する.これにより,任意の確率密度関数で表現された方策を高い精度で実現できることを示す. |
(英) |
A function approximation based on an orthonormal wave function expansion in a complex space is derived.
Although a probability density function (PDF) cannot always be expanded in an orthogonal series in a real space because a PDF is a positive real function, the function approximation can approximate an arbitrary PDF with high accuracy.
It is applied to an actor-critic method of reinforcement learning to derive an optimal policy expressed by an arbitrary PDF in a continuous-action continuous-state environment.
A chaos control problem and a PDF approximation problem are solved using the actor-critic method with the function approximation, and it is shown that the function approximation can approximate a PDF well and that the actor-critic method with the function approximation exhibits high performance. |
キーワード |
(和) |
強化学習 / アクタークリティック / 連続行動 / 確率密度関数 / 直交関数展開 / 関数近似 / / |
(英) |
reinforcement learning / actor-critic / continuous action / probability density / orthogonal expansion / approximation / / |
文献情報 |
信学技報, vol. 105, no. 206, NLP2005-35, pp. 39-44, 2005年7月. |
資料番号 |
NLP2005-35 |
発行日 |
2005-07-18 (NLP) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|