適応的モデル複雑度に基づくモジュール強化学習

日栄,悠; 森,健; 石井,信

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2009-03-13 09:20 適応的モデル複雑度に基づくモジュール強化学習 ○日栄　悠（奈良先端大）・森　健（京大）・石井　信（京大/奈良先端大） NC2008-149
抄録	（和）	ロボット等を取り巻く実世界の環境は一般に非定常であり，最適制御は時々刻々と変化する．定常なマルコフ決定過程を仮定する強化学習に基づいて，このような非定常な制御法を学習することは困難である．近年，非定常環境を複数の定常環境の重ね合わせと仮定し，各環境を予測器-制御器対のモジュールを用いて近似する強化学習法が注目を集めている．この方法では，学習に用いるモジュールの数を学習前に決めておく必要があるが，モジュール数を不適切に選択すると，学習の遅延や制御の悪化が引き起こされる．そこで本研究では，学習と並行して適切なモジュール数の探索を行うモデルを提案する．計算機実験により，提案手法が従来手法よりも高速，かつ，安定した学習を実現できることを示す．
	（英）	In real-world problems such as robot control, the environment surrounding a controlled system is nonstationary, and the optimal control may change with time. It is difficult to learn such a nonstationary control by using reinforcement learning (RL) which usually assumes stationary Markov decision processes. To deal with such problems, modular RL methods have been proposed, in which the nonstationary environment and the control are approximated by means of multiple modules. However, the deficiency or excess of the modules can cause the inefficient controller or make the learning slower. To overcome these difficulties, we propose a novel modular RLalgorithm, in which the optimal number of modules is seeked based on a variational Bayes method during the policy optimization. Computer simulations show that our method achieves faster and more stable learning than the previous one.
キーワード	（和）	非定常環境 / モジュール強化学習 / 最良モデル探索 / 変分ベイズ法 / / / /
	（英）	Nonstationary environment / Modular reinforcement learning / Variational Bayes method / Optimal model search / / / /
文献情報		信学技報, vol. 108, no. 480, NC2008-149, pp. 273-278, 2009年3月.
資料番号		NC2008-149
発行日		2009-03-04 (NC)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NC2008-149

研究会情報
研究会	NC MBE
開催期間	2009-03-11 - 2009-03-13
開催地（和）	玉川大学
開催地（英）	Tamagawa Univ.
テーマ（和）	一般
テーマ（英）
講演論文情報の詳細
申込み研究会	NC
会議コード	2009-03-NC-MBE
本文の言語	日本語
タイトル（和）	適応的モデル複雑度に基づくモジュール強化学習
サブタイトル（和）
タイトル（英）	Modular Reinforcement Learning based on Adaptive Model Complexity
サブタイトル（英）
キーワード(1)（和/英）	非定常環境 / Nonstationary environment
キーワード(2)（和/英）	モジュール強化学習 / Modular reinforcement learning
キーワード(3)（和/英）	最良モデル探索 / Variational Bayes method
キーワード(4)（和/英）	変分ベイズ法 / Optimal model search
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	日栄悠 / Yu Hiei / ヒエイユウ
第1著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大) Nara Institute of Science and Technology (略称： Nara Inst. of Sci and Tech.)
第2著者氏名（和/英/ヨミ）	森健 / Takeshi Mori / モリタケシ
第2著者所属（和/英）	京都大学 (略称：京大) Kyoto University (略称： Kyoto Univ.)
第3著者氏名（和/英/ヨミ）	石井信 / Shin Ishii / イシイシン
第3著者所属（和/英）	京都大学/奈良先端科学技術大学院大学 (略称：京大/奈良先端大) Kyoto University/Nara Institute of Science and Technology (略称： Kyoto Univ./Nara Institute of Science and Technology)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2009-03-13 09:20:00
発表時間	25分
申込先研究会	NC
資料番号	NC2008-149
巻番号（vol）	vol.108
号番号（no）	no.480
ページ範囲	pp.273-278
ページ数	6
発行日	2009-03-04 (NC)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会