内部状態の報酬に基づいた推定を行う強化学習法

中村 泰; 石井 信

講演名	2004/6/18 内部状態の報酬に基づいた推定を行う強化学習法中村泰, 石井信,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	部分観測マルコフ決定過程を扱う手法として,環境の状態を表現する信念状態を用いて価値関数を推定する手法が広く研究されてきた.しかし,信念状態の空間は非常に大きいため,信念状態上の価値を計算することは困難である.近年,パラメータ線形モデルで近似した価値関数を用いて学習を行う方策勾配法が開発され,その有効性が示された.本報告では,内部状態を持つ方策に対する自然方策勾配法を提案する.計算機シミュレーションにより,本手法によって隠れ状態を持つ線形力学システムに対する制御器が獲得できることを示す.
抄録(英)	There are many studies on partially observable Markov decision processes, which employ "belief state" that represents the state of the environment, in order to estimate the value function. However, it is often intractable to obtain the value function because the space of belief states is very large. Recently, policy gradient methods that involve value learning have been developed and their efficiency has been shown. In this report, we propose a natural policy gradient method for a policy involving an internal state. Computer simulations show that a good controller which can control a linear dynamical system with unobservable variables is acquired according to our reinforcement learning method.
キーワード(和)	強化学習 / 方策勾配法 / 自然方策勾配法 / 部分観測マルコフ決定過程 / 最小二乗TD学習
キーワード(英)	Reinforcement learning / policy gradient method / natural policy gradient method / partially observable Markov decision process / least squares temporal difference learning
資料番号	NC2004-33
発行日

研究会情報
研究会	NC
開催期間	2004/6/18(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	内部状態の報酬に基づいた推定を行う強化学習法
サブタイトル（和）
タイトル（英）	A reinforcement learning for a policy involving value-directed internal state
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / Reinforcement learning
キーワード(2)（和/英）	方策勾配法 / policy gradient method
キーワード(3)（和/英）	自然方策勾配法 / natural policy gradient method
キーワード(4)（和/英）	部分観測マルコフ決定過程 / partially observable Markov decision process
キーワード(5)（和/英）	最小二乗TD学習 / least squares temporal difference learning
第 1 著者氏名（和/英）	中村泰 / Yutaka NAKAMURA
第 1 著者所属（和/英）	奈良先端科学技術大学院大学論理生命学講座:科学技術振興機構CREST Nara Institute of Science and Technology, Theoretical Life-Science Laboratory:CREST, Japan Science and Technology Agency
第 2 著者氏名（和/英）	石井信 / Shin ISHII
第 2 著者所属（和/英）	奈良先端科学技術大学院大学論理生命学講座:科学技術振興機構CREST Nara Institute of Science and Technology, Theoretical Life-Science Laboratory:CREST, Japan Science and Technology Agency
発表年月日	2004/6/18
資料番号	NC2004-33
巻番号（vol）	vol.104
号番号（no）	140
ページ範囲	pp.-
ページ数	6
発行日