講演名 | 2009-03-12 セミパラメトリック統計学に基づく価値関数推定 植野 剛, 川鍋 一晃, 森 健, 前田 新一, 石井 信, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | Least squares temporal difference(LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できるパラメトリックモデルが与えられている場合,推定関数法によって,タスク環境をモデル化することなく,漸近的に真の価値関数に収束する一致推定量を得ることができる.これより,LSTD規範の推定量の漸近的な推定分散を解析し,解析した推定分散を最小にする最適な推定関数を導出する.また,最適な推定関数を得るために必要な計算負担を軽減することを目的として,準最適な推定量も提案する. |
抄録(英) | Recently least-squares temporal difference (LSTD) learning has been developed for the model-free value function estimation and has shown good practical performance. However, the statistical efficiency of its estimation has not been well elucidated. In this study, we discuss LSTD-based policy evaluation from a viewpoint of semiparametric statistical inference. When the true value function can be represented by a parametric model, a consistent estimator of the value function is obtained by using a particular estimating function without knowing the whole data distribution, such as state transition probability or reward probability. Especially, we 1) analyze the asymptotic variance of the LSTD-based estimator, 2) derive the optimal estimating function with the minimum asymptotic estimation variance, and 3) derive the suboptimal estimator to reduce the computational cost when obtaining the optimal estimating function. |
キーワード(和) | 強化学習 / 方策評価 / セミパラメトリックモデル / 推定関数 / LSTD法 / 補助変数法 |
キーワード(英) | reinforcement learning / policy evaluation / semiparametric model / estimating function / least square temporal difference learning / instrumental variable method |
資料番号 | NC2008-146 |
発行日 |
研究会情報 | |
研究会 | NC |
---|---|
開催期間 | 2009/3/4(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Neurocomputing (NC) |
---|---|
本文の言語 | JPN |
タイトル(和) | セミパラメトリック統計学に基づく価値関数推定 |
サブタイトル(和) | |
タイトル(英) | Semiparametric Statistics Approach to Value Function Estimation |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / reinforcement learning |
キーワード(2)(和/英) | 方策評価 / policy evaluation |
キーワード(3)(和/英) | セミパラメトリックモデル / semiparametric model |
キーワード(4)(和/英) | 推定関数 / estimating function |
キーワード(5)(和/英) | LSTD法 / least square temporal difference learning |
キーワード(6)(和/英) | 補助変数法 / instrumental variable method |
第 1 著者 氏名(和/英) | 植野 剛 / Tsuyoshi UENO |
第 1 著者 所属(和/英) | 京都大学大学院情報学研究科 Kyoto University |
第 2 著者 氏名(和/英) | 川鍋 一晃 / Motoaki KAWANABE |
第 2 著者 所属(和/英) | / 京都大学大学院情報学研究科 Fraunhofer FIRST |
第 3 著者 氏名(和/英) | 森 健 / Takeshi MORI |
第 3 著者 所属(和/英) | 京都大学大学院情報学研究科 Kyoto University |
第 4 著者 氏名(和/英) | 前田 新一 / Shin-ichi MAEDA |
第 4 著者 所属(和/英) | 京都大学大学院情報学研究科 Kyoto University |
第 5 著者 氏名(和/英) | 石井 信 / Shin ISHII |
第 5 著者 所属(和/英) | Kyoto University |
発表年月日 | 2009-03-12 |
資料番号 | NC2008-146 |
巻番号(vol) | vol.108 |
号番号(no) | 480 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |