非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例

五十嵐 治一; 石原 聖司; 木村 昌臣

講演名	2007-03-14 非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例五十嵐治一, 石原聖司, 木村昌臣,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	強化学習には価値ベースと方策ベースの2つのアプローチがある.VAPSアルゴリズムは両者の統一を目指したアルゴリズムである.我々はこれまでにVAPSアルゴリズムの学習則が非マルコフ決定過程の学習問題へ適用できることを示してきた.本論文では例題としてカーリングゲームにおける運動の逆問題へ適用することを考える.学習の定式化によっては,マルコフ決定過程としても非マルコフ決定過程としても定式化することができるが,後者の場合にも方策表現を工夫することにより方策勾配法が適用できることを示す.
抄録(英)	There are two approaches to reinforcement learning: value-based methods and policy-gradient methods. Baird and Moore proposed the VAPS algorithm to unify these two approaches. In a previous paper, we gave a simple proof in which the VAPS algorithm's learning rule can be extensively applied even in non-Markov decision processes and clarified statistical properties on the correlation between characteristic eligibility functions. In this paper, we investigate an inverse problem in a curling game and show that the problem can be formalized to a learning problem in non-Markov decision processes.
キーワード(和)	強化学習 / 非マルコフ決定過程 / 方策勾配法
キーワード(英)	Reinforcement learning / Non-Markov decision process / Policy-gradient method
資料番号	NC2006-148
発行日

研究会情報
研究会	NC
開催期間	2007/3/7(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例
サブタイトル（和）
タイトル（英）	A Study of Policy-Gradient Methods in Non-Markov Decision Processes : Curling Game Application
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / Reinforcement learning
キーワード(2)（和/英）	非マルコフ決定過程 / Non-Markov decision process
キーワード(3)（和/英）	方策勾配法 / Policy-gradient method
第 1 著者氏名（和/英）	五十嵐治一 / Harukazu IGARASHI
第 1 著者所属（和/英）	芝浦工業大学工学部 College of Engineering, Shibaura Institute of Technology
第 2 著者氏名（和/英）	石原聖司 / Seiji ISHIHARA
第 2 著者所属（和/英）	近畿大学工学部 School of Engineering, Kinki University
第 3 著者氏名（和/英）	木村昌臣 / Masaomi KIMURA
第 3 著者所属（和/英）	芝浦工業大学工学部 College of Engineering, Shibaura Institute of Technology
発表年月日	2007-03-14
資料番号	NC2006-148
巻番号（vol）	vol.106
号番号（no）	588
ページ範囲	pp.-
ページ数	6
発行日