講演名 2019-03-05
強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化
土井 一輝(岐阜大), 大川 慧悟(岐阜大), 志賀 元紀(岐阜大/JST/理研),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習において,観測される状態空間か?偏ってしまうと,政策関数を正しく最適化て?きない恐れか?ある. 本研究て?は,状態空間の探索法 Variational Information Maximizing Exploration(VIME)法による状態観測探索の 効率化をはかり,Trust Region Policy Optimization(TRPO)法による安定な政策勾配学習と組み合わる方法を検討 する.3 種類の強化学習の仮想環境のタスクを作成し,これらを用いた数値実験により検討手法の性能を検証した.数 値実験の結果より,目標状態まて?複数のステッフ?を要するタスクに対して,VIME 法の有効性を確認て?きた.
抄録(英) In reinforcement learning,the policy function may not be optimized properly if the observed state space is limited to local sub-space.To facilitate exploration of unseen states, Variational Information Maximizing Exploration (VIME), which evaluates entropy of the next action and state, is useful. We propose to combine VIME and Trust Region Policy Optimization (TRPO). The performance of our method was evaluated using three reinforcement learning tasks. The results shows that VIME drastically improves the acquisition reward for the task that needs a lot of steps to achieve the goal state.
キーワード(和) 強化学習 / 変分情報最大化探索 / 信頼領域政策最適化
キーワード(英) Reinforcement Learning / Variational Information Maximizing Exploration / Trust Region Policy Optimization
資料番号 IBISML2018-107
発行日 2019-02-26 (IBISML)

研究会情報
研究会 IBISML
開催期間 2019/3/5(から2日開催)
開催地(和) 理研AIP
開催地(英) RIKEN AIP
テーマ(和) 機械学習一般
テーマ(英) Machine learning, etc.
委員長氏名(和) 鹿島 久嗣(京大)
委員長氏名(英) Hisashi Kashima(Kyoto Univ.)
副委員長氏名(和) 杉山 将(東大) / 津田 宏治(東大)
副委員長氏名(英) Masashi Sugiyama(Univ. of Tokyo) / Koji Tsuda(Univ. of Tokyo)
幹事氏名(和) 竹内 一郎(名工大) / 神嶌 敏弘(産総研)
幹事氏名(英) Ichiro Takeuchi(Nagoya Inst. of Tech.) / Toshihiro Kamishima(AIST)
幹事補佐氏名(和) 岩田 具治(NTT) / 大羽 成征(京大)
幹事補佐氏名(英) Tomoharu Iwata(NTT) / Shigeyuki Oba(Kyoto Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Infomation-Based Induction Sciences and Machine Learning
本文の言語 JPN
タイトル(和) 強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化
サブタイトル(和)
タイトル(英) Efficient Exploration by Variational Information Maximizing Exploration on Reinforcement Learning
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement Learning
キーワード(2)(和/英) 変分情報最大化探索 / Variational Information Maximizing Exploration
キーワード(3)(和/英) 信頼領域政策最適化 / Trust Region Policy Optimization
第 1 著者 氏名(和/英) 土井 一輝 / Kazuki Doi
第 1 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 2 著者 氏名(和/英) 大川 慧悟 / Keigo Okawa
第 2 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 3 著者 氏名(和/英) 志賀 元紀 / Motoki Shiga
第 3 著者 所属(和/英) 岐阜大学/科学技術振興機構/理化学研究所(略称:岐阜大/JST/理研)
Gifu University/Japan Science and Technology Agency/RIKEN(略称:Gifu Univ./JST/RIKEN)
発表年月日 2019-03-05
資料番号 IBISML2018-107
巻番号(vol) vol.118
号番号(no) IBISML-472
ページ範囲 pp.17-22(IBISML),
ページ数 6
発行日 2019-02-26 (IBISML)