セミパラメトリック統計学に基づく価値関数推定

植野 剛; 川鍋 一晃; 森 健; 前田 新一; 石井 信

講演名	2009-03-12 セミパラメトリック統計学に基づく価値関数推定植野剛, 川鍋一晃, 森健, 前田新一, 石井信,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	Least squares temporal difference(LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できるパラメトリックモデルが与えられている場合,推定関数法によって,タスク環境をモデル化することなく,漸近的に真の価値関数に収束する一致推定量を得ることができる.これより,LSTD規範の推定量の漸近的な推定分散を解析し,解析した推定分散を最小にする最適な推定関数を導出する.また,最適な推定関数を得るために必要な計算負担を軽減することを目的として,準最適な推定量も提案する.
抄録(英)	Recently least-squares temporal difference (LSTD) learning has been developed for the model-free value function estimation and has shown good practical performance. However, the statistical efficiency of its estimation has not been well elucidated. In this study, we discuss LSTD-based policy evaluation from a viewpoint of semiparametric statistical inference. When the true value function can be represented by a parametric model, a consistent estimator of the value function is obtained by using a particular estimating function without knowing the whole data distribution, such as state transition probability or reward probability. Especially, we 1) analyze the asymptotic variance of the LSTD-based estimator, 2) derive the optimal estimating function with the minimum asymptotic estimation variance, and 3) derive the suboptimal estimator to reduce the computational cost when obtaining the optimal estimating function.
キーワード(和)	強化学習 / 方策評価 / セミパラメトリックモデル / 推定関数 / LSTD法 / 補助変数法
キーワード(英)	reinforcement learning / policy evaluation / semiparametric model / estimating function / least square temporal difference learning / instrumental variable method
資料番号	NC2008-146
発行日

研究会情報
研究会	NC
開催期間	2009/3/4(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	セミパラメトリック統計学に基づく価値関数推定
サブタイトル（和）
タイトル（英）	Semiparametric Statistics Approach to Value Function Estimation
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	方策評価 / policy evaluation
キーワード(3)（和/英）	セミパラメトリックモデル / semiparametric model
キーワード(4)（和/英）	推定関数 / estimating function
キーワード(5)（和/英）	LSTD法 / least square temporal difference learning
キーワード(6)（和/英）	補助変数法 / instrumental variable method
第 1 著者氏名（和/英）	植野剛 / Tsuyoshi UENO
第 1 著者所属（和/英）	京都大学大学院情報学研究科 Kyoto University
第 2 著者氏名（和/英）	川鍋一晃 / Motoaki KAWANABE
第 2 著者所属（和/英）	/ 京都大学大学院情報学研究科 Fraunhofer FIRST
第 3 著者氏名（和/英）	森健 / Takeshi MORI
第 3 著者所属（和/英）	京都大学大学院情報学研究科 Kyoto University
第 4 著者氏名（和/英）	前田新一 / Shin-ichi MAEDA
第 4 著者所属（和/英）	京都大学大学院情報学研究科 Kyoto University
第 5 著者氏名（和/英）	石井信 / Shin ISHII
第 5 著者所属（和/英）	Kyoto University
発表年月日	2009-03-12
資料番号	NC2008-146
巻番号（vol）	vol.108
号番号（no）	480
ページ範囲	pp.-
ページ数	6
発行日