講演抄録/キーワード |
講演名 |
2009-03-13 09:20
適応的モデル複雑度に基づくモジュール強化学習 ○日栄 悠(奈良先端大)・森 健(京大)・石井 信(京大/奈良先端大) NC2008-149 |
抄録 |
(和) |
ロボット等を取り巻く実世界の環境は一般に非定常であり,最適制御は時々刻々と変化する.定常なマルコフ決定過程を仮定する強化学習に基づいて,このような非定常な制御法を学習することは困難である.近年,非定常環境を複数の定常環境の重ね合わせと仮定し,各環境を予測器-制御器対のモジュールを用いて近似する強化学習法が注目を集めている.この方法では,学習に用いるモジュールの数を学習前に決めておく必要があるが,モジュール数を不適切に選択すると,学習の遅延や制御の悪化が引き起こされる.そこで本研究では,学習と並行して適切なモジュール数の探索を行うモデルを提案する.計算機実験により,提案手法が従来手法よりも高速,かつ,安定した学習を実現できることを示す. |
(英) |
In real-world problems such as robot control, the environment surrounding a controlled system is nonstationary, and the optimal control may change with time. It is difficult to learn such a nonstationary control by using reinforcement learning (RL) which usually assumes stationary Markov
decision processes. To deal with such problems, modular RL methods have been proposed, in which the nonstationary environment and the control
are approximated by means of multiple modules. However, the deficiency or excess of the modules can cause the inefficient controller or make the learning slower. To overcome these difficulties, we propose a novel modular RLalgorithm, in which the optimal number of modules is seeked based on a variational Bayes method during the policy optimization. Computer simulations show that our method achieves faster and more stable learning than the previous one. |
キーワード |
(和) |
非定常環境 / モジュール強化学習 / 最良モデル探索 / 変分ベイズ法 / / / / |
(英) |
Nonstationary environment / Modular reinforcement learning / Variational Bayes method / Optimal model search / / / / |
文献情報 |
信学技報, vol. 108, no. 480, NC2008-149, pp. 273-278, 2009年3月. |
資料番号 |
NC2008-149 |
発行日 |
2009-03-04 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2008-149 |