お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2009-03-13 09:20
適応的モデル複雑度に基づくモジュール強化学習
日栄 悠奈良先端大)・森 健京大)・石井 信京大/奈良先端大NC2008-149
抄録 (和) ロボット等を取り巻く実世界の環境は一般に非定常であり,最適制御は時々刻々と変化する.定常なマルコフ決定過程を仮定する強化学習に基づいて,このような非定常な制御法を学習することは困難である.近年,非定常環境を複数の定常環境の重ね合わせと仮定し,各環境を予測器-制御器対のモジュールを用いて近似する強化学習法が注目を集めている.この方法では,学習に用いるモジュールの数を学習前に決めておく必要があるが,モジュール数を不適切に選択すると,学習の遅延や制御の悪化が引き起こされる.そこで本研究では,学習と並行して適切なモジュール数の探索を行うモデルを提案する.計算機実験により,提案手法が従来手法よりも高速,かつ,安定した学習を実現できることを示す. 
(英) In real-world problems such as robot control, the environment surrounding a controlled system is nonstationary, and the optimal control may change with time. It is difficult to learn such a nonstationary control by using reinforcement learning (RL) which usually assumes stationary Markov
decision processes. To deal with such problems, modular RL methods have been proposed, in which the nonstationary environment and the control
are approximated by means of multiple modules. However, the deficiency or excess of the modules can cause the inefficient controller or make the learning slower. To overcome these difficulties, we propose a novel modular RLalgorithm, in which the optimal number of modules is seeked based on a variational Bayes method during the policy optimization. Computer simulations show that our method achieves faster and more stable learning than the previous one.
キーワード (和) 非定常環境 / モジュール強化学習 / 最良モデル探索 / 変分ベイズ法 / / / /  
(英) Nonstationary environment / Modular reinforcement learning / Variational Bayes method / Optimal model search / / / /  
文献情報 信学技報, vol. 108, no. 480, NC2008-149, pp. 273-278, 2009年3月.
資料番号 NC2008-149 
発行日 2009-03-04 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2008-149

研究会情報
研究会 NC MBE  
開催期間 2009-03-11 - 2009-03-13 
開催地(和) 玉川大学 
開催地(英) Tamagawa Univ. 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2009-03-NC-MBE 
本文の言語 日本語 
タイトル(和) 適応的モデル複雑度に基づくモジュール強化学習 
サブタイトル(和)  
タイトル(英) Modular Reinforcement Learning based on Adaptive Model Complexity 
サブタイトル(英)  
キーワード(1)(和/英) 非定常環境 / Nonstationary environment  
キーワード(2)(和/英) モジュール強化学習 / Modular reinforcement learning  
キーワード(3)(和/英) 最良モデル探索 / Variational Bayes method  
キーワード(4)(和/英) 変分ベイズ法 / Optimal model search  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 日栄 悠 / Yu Hiei / ヒエイ ユウ
第1著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: Nara Inst. of Sci and Tech.)
第2著者 氏名(和/英/ヨミ) 森 健 / Takeshi Mori / モリ タケシ
第2著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第3著者 氏名(和/英/ヨミ) 石井 信 / Shin Ishii / イシイ シン
第3著者 所属(和/英) 京都大学/奈良先端科学技術大学院大学 (略称: 京大/奈良先端大)
Kyoto University/Nara Institute of Science and Technology (略称: Kyoto Univ./Nara Institute of Science and Technology)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2009-03-13 09:20:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2008-149 
巻番号(vol) vol.108 
号番号(no) no.480 
ページ範囲 pp.273-278 
ページ数
発行日 2009-03-04 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会