講演名 2012-11-07
重み付き最尤推定に基づく方策探索法(第15回情報論的学習理論ワークショップ)
植野 剛, 林 浩平, 鷲尾 隆, 河原 吉伸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 直接方策探索法(Direct Policy Search:DPS)に基づく強化学習は,大規模,かつ複雑なマルコフ決定過程に対する解法として近年,注目を集めている.DPSはこれまで様々な実問題に応用され,目覚しい成果を挙げているが,方策モデルの選択法に関してはこれまでほとんど議論されてこなかった.本研究では,方策を重み付き最尤推定法により学習する新しい手法,weighted likelihood policy search(WLPS)法を提案する.WLPSはDPSの統計推論問題として自然な解釈を与え,統計学習分野で確立されているモデル選択に関する方法論を直接,DPSに適用することを可能にする.本研究では,情報量基準の考えを方策探索に応用し,重み付き尤度を規範とした方策モデルの選択法を提案する.
抄録(英) Reinforcement learning (RL) methods based on direct policy search (DPS) have been actively discussed to achieve an efficient approach to complicated Markov decision processes (MDPs). Although they have brought much progress in practical applications of RL, there still remains an open problem in DPS related to model selection for the policy. In this paper, we propose a new DPS method, weighted likelihood policy search (WLPS), where a policy is efficiently learned through the weighted likelihood estimation. WLPS naturally connects DPS to the statistical inference problem and thus various sophisticated techniques in statistics can be applied to DPS problems directly. Hence, by following the idea of the information criterion, we develop a new measurement for model comparison in DPS based on the weighted log-likelihood.
キーワード(和) 強化学習 / 直接方策探索法 / 漸近解析 / モデル選択
キーワード(英) Reinforcement learning / direct policy search / asymptotic analysis / model selection
資料番号 IBISML2012-57
発行日

研究会情報
研究会 IBISML
開催期間 2012/10/31(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Information-Based Induction Sciences and Machine Learning (IBISML)
本文の言語 JPN
タイトル(和) 重み付き最尤推定に基づく方策探索法(第15回情報論的学習理論ワークショップ)
サブタイトル(和)
タイトル(英) Weighted Likelihood Policy Search
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement learning
キーワード(2)(和/英) 直接方策探索法 / direct policy search
キーワード(3)(和/英) 漸近解析 / asymptotic analysis
キーワード(4)(和/英) モデル選択 / model selection
第 1 著者 氏名(和/英) 植野 剛 / Tsuyoshi UENO
第 1 著者 所属(和/英) 科学技術振興機構湊離散構造処理系プロジェクト
Minato Discrete Structure Manipulation System Project, Japan Science and Technology Agency
第 2 著者 氏名(和/英) 林 浩平 / Kohei HAYASHI
第 2 著者 所属(和/英) 東京大学大学院情報理工学系研究科:日本学術振興会
Department of Mathematical Informatics, The University of Tokyo:JSPS
第 3 著者 氏名(和/英) 鷲尾 隆 / Takashi WASHIO
第 3 著者 所属(和/英) 大阪大学産業科学研究所:科学技術振興機構湊離散構造処理系プロジェクト
The Institute of Scientific and Industrial Research, Osaka University:Minato Discrete Structure Manipulation System Project, Japan Science and Technology Agency
第 4 著者 氏名(和/英) 河原 吉伸 / Yoshinobu KAWAHARA
第 4 著者 所属(和/英) 大阪大学産業科学研究所
The Institute of Scientific and Industrial Research, Osaka University
発表年月日 2012-11-07
資料番号 IBISML2012-57
巻番号(vol) vol.112
号番号(no) 279
ページ範囲 pp.-
ページ数 6
発行日