電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2019-03-05 14:30
強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化
土井一輝大川慧悟岐阜大)・志賀元紀岐阜大/JST/理研
技報オンラインサービス実施中
抄録 (和) 強化学習において,観測される状態空間が偏ってしまうと,政策関数を正しく最適化できない恐れがある. 本研究では,状態空間の探索法 Variational Information Maximizing Exploration(VIME)法による状態観測探索の 効率化をはかり,Trust Region Policy Optimization(TRPO)法による安定な政策勾配学習と組み合わる方法を検討 する.3 種類の強化学習の仮想環境のタスクを作成し,これらを用いた数値実験により検討手法の性能を検証した.数 値実験の結果より,目標状態まで複数のステップを要するタスクに対して,VIME 法の有効性を確認できた. 
(英) In reinforcement learning,the policy function may not be optimized properly if the observed state space is limited to local sub-space.To facilitate exploration of unseen states, Variational Information Maximizing Exploration (VIME), which evaluates entropy of the next action and state, is useful. We propose to combine VIME and Trust Region Policy Optimization (TRPO). The performance of our method was evaluated using three reinforcement learning tasks. The results shows that VIME drastically improves the acquisition reward for the task that needs a lot of steps to achieve the goal state.
キーワード (和) 強化学習 / 変分情報最大化探索 / 信頼領域政策最適化 / / / / /  
(英) Reinforcement Learning / Variational Information Maximizing Exploration / Trust Region Policy Optimization / / / / /  
文献情報 信学技報, vol. 118, no. 472, IBISML2018-107, pp. 17-22, 2019年3月.
資料番号 IBISML2018-107 
発行日 2019-02-26 (IBISML) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380

研究会情報
研究会 IBISML  
開催期間 2019-03-05 - 2019-03-06 
開催地(和) 理研AIP 
開催地(英) RIKEN AIP 
テーマ(和) 機械学習一般 
テーマ(英) Machine learning, etc. 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2019-03-IBISML 
本文の言語 日本語 
タイトル(和) 強化学習におけるVariational Information Maximizing Explorationに基づく状態探索の効率化 
サブタイトル(和)  
タイトル(英) Efficient Exploration by Variational Information Maximizing Exploration on Reinforcement Learning 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / Reinforcement Learning  
キーワード(2)(和/英) 変分情報最大化探索 / Variational Information Maximizing Exploration  
キーワード(3)(和/英) 信頼領域政策最適化 / Trust Region Policy Optimization  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 土井 一輝 / Kazuki Doi / ドイ カズキ
第1著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第2著者 氏名(和/英/ヨミ) 大川 慧悟 / Keigo Okawa / オオカワ ケイゴ
第2著者 所属(和/英) 岐阜大学 (略称: 岐阜大)
Gifu University (略称: Gifu Univ.)
第3著者 氏名(和/英/ヨミ) 志賀 元紀 / Motoki Shiga / シガ モトキ
第3著者 所属(和/英) 岐阜大学/科学技術振興機構/理化学研究所 (略称: 岐阜大/JST/理研)
Gifu University/Japan Science and Technology Agency/RIKEN (略称: Gifu Univ./JST/RIKEN)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2019-03-05 14:30:00 
発表時間 30 
申込先研究会 IBISML 
資料番号 IEICE-IBISML2018-107 
巻番号(vol) IEICE-118 
号番号(no) no.472 
ページ範囲 pp.17-22 
ページ数 IEICE-6 
発行日 IEICE-IBISML-2019-02-26 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会