強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化

土井 一輝; 大川 慧悟; 志賀 元紀

講演名	2019-03-05 強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化土井一輝(岐阜大), 大川慧悟(岐阜大), 志賀元紀(岐阜大/JST/理研),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	強化学習において，観測される状態空間か?偏ってしまうと，政策関数を正しく最適化て?きない恐れか?ある. 本研究て?は，状態空間の探索法 Variational Information Maximizing Exploration(VIME)法による状態観測探索の効率化をはかり，Trust Region Policy Optimization(TRPO)法による安定な政策勾配学習と組み合わる方法を検討する.3 種類の強化学習の仮想環境のタスクを作成し，これらを用いた数値実験により検討手法の性能を検証した.数値実験の結果より，目標状態まて?複数のステッフ?を要するタスクに対して，VIME 法の有効性を確認て?きた.
抄録(英)	In reinforcement learning，the policy function may not be optimized properly if the observed state space is limited to local sub-space.To facilitate exploration of unseen states, Variational Information Maximizing Exploration (VIME), which evaluates entropy of the next action and state, is useful. We propose to combine VIME and Trust Region Policy Optimization (TRPO). The performance of our method was evaluated using three reinforcement learning tasks. The results shows that VIME drastically improves the acquisition reward for the task that needs a lot of steps to achieve the goal state.
キーワード(和)	強化学習 / 変分情報最大化探索 / 信頼領域政策最適化
キーワード(英)	Reinforcement Learning / Variational Information Maximizing Exploration / Trust Region Policy Optimization
資料番号	IBISML2018-107
発行日	2019-02-26 (IBISML)

研究会情報
研究会	IBISML
開催期間	2019/3/5(から2日開催)
開催地（和）	理研AIP
開催地（英）	RIKEN AIP
テーマ（和）	機械学習一般
テーマ（英）	Machine learning, etc.
委員長氏名（和）	鹿島久嗣(京大)
委員長氏名（英）	Hisashi Kashima(Kyoto Univ.)
副委員長氏名（和）	杉山将(東大) / 津田宏治(東大)
副委員長氏名（英）	Masashi Sugiyama(Univ. of Tokyo) / Koji Tsuda(Univ. of Tokyo)
幹事氏名（和）	竹内一郎(名工大) / 神嶌敏弘(産総研)
幹事氏名（英）	Ichiro Takeuchi(Nagoya Inst. of Tech.) / Toshihiro Kamishima(AIST)
幹事補佐氏名（和）	岩田具治(NTT) / 大羽成征(京大)
幹事補佐氏名（英）	Tomoharu Iwata(NTT) / Shigeyuki Oba(Kyoto Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Infomation-Based Induction Sciences and Machine Learning
本文の言語	JPN
タイトル（和）	強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化
サブタイトル（和）
タイトル（英）	Efficient Exploration by Variational Information Maximizing Exploration on Reinforcement Learning
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / Reinforcement Learning
キーワード(2)（和/英）	変分情報最大化探索 / Variational Information Maximizing Exploration
キーワード(3)（和/英）	信頼領域政策最適化 / Trust Region Policy Optimization
第 1 著者氏名（和/英）	土井一輝 / Kazuki Doi
第 1 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 2 著者氏名（和/英）	大川慧悟 / Keigo Okawa
第 2 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 3 著者氏名（和/英）	志賀元紀 / Motoki Shiga
第 3 著者所属（和/英）	岐阜大学/科学技術振興機構/理化学研究所(略称：岐阜大/JST/理研) Gifu University/Japan Science and Technology Agency/RIKEN(略称：Gifu Univ./JST/RIKEN)
発表年月日	2019-03-05
資料番号	IBISML2018-107
巻番号（vol）	vol.118
号番号（no）	IBISML-472
ページ範囲	pp.17-22(IBISML),
ページ数	6
発行日	2019-02-26 (IBISML)