講演名 2011-07-26
線形可解マルコフ決定過程における受動的ダイナミクスのモデリングと推定(知的システム,一般)
ブルデリス マウリシオ, 池田 和司,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Todorovにより,強化学習が簡単化されるマルコフ決定過程のクラスが提案されている.すなわち,特定の条件下では,最適行動選択のためのベルマン方程式が線形になり,最適な状態遷移確率が解析的に得られる.しかしながら,実問題に対して線形可解マルコフ決定過程の枠組みを適用するには,システムの受動ダイナミクスを知る必要がある.本研究では,強化学習においてシステムのダイナミクスを推定する方法を提案する.
抄録(英) Todorov has recently introduced a class of linearly-solvable Markov decision processes (LSMDPs) which greatly simplifies reinforcement learning. Under some specific conditions, the problem of choosing optimal actions becomes linear, and the optimal transition probabilities can be obtained analytically. In order to apply the LSMDPs framework to realistic problems, it is necessary to know the passive dynamics distribution, which is crucial in the theory. The purpose of the present work is to propose a method to estimate the passive dynamics distribution in reinforcement learning problems.
キーワード(和) 線形ベルマン方程式 / 強化学習
キーワード(英) Linear Bellman Equation / Reinforcement Learning
資料番号 NC2011-43
発行日

研究会情報
研究会 NC
開催期間 2011/7/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 ENG
タイトル(和) 線形可解マルコフ決定過程における受動的ダイナミクスのモデリングと推定(知的システム,一般)
サブタイトル(和)
タイトル(英) Modeling and estimating passive dynamics distributions in linearly solvable Markov decision processes
サブタイトル(和)
キーワード(1)(和/英) 線形ベルマン方程式 / Linear Bellman Equation
キーワード(2)(和/英) 強化学習 / Reinforcement Learning
第 1 著者 氏名(和/英) ブルデリス マウリシオ / Mauricio BURDELIS
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 池田 和司 / Kazushi IKEDA
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2011-07-26
資料番号 NC2011-43
巻番号(vol) vol.111
号番号(no) 157
ページ範囲 pp.-
ページ数 6
発行日