講演名 2007-03-14
非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例
五十嵐 治一, 石原 聖司, 木村 昌臣,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習には価値ベースと方策ベースの2つのアプローチがある.VAPSアルゴリズムは両者の統一を目指したアルゴリズムである.我々はこれまでにVAPSアルゴリズムの学習則が非マルコフ決定過程の学習問題へ適用できることを示してきた.本論文では例題としてカーリングゲームにおける運動の逆問題へ適用することを考える.学習の定式化によっては,マルコフ決定過程としても非マルコフ決定過程としても定式化することができるが,後者の場合にも方策表現を工夫することにより方策勾配法が適用できることを示す.
抄録(英) There are two approaches to reinforcement learning: value-based methods and policy-gradient methods. Baird and Moore proposed the VAPS algorithm to unify these two approaches. In a previous paper, we gave a simple proof in which the VAPS algorithm's learning rule can be extensively applied even in non-Markov decision processes and clarified statistical properties on the correlation between characteristic eligibility functions. In this paper, we investigate an inverse problem in a curling game and show that the problem can be formalized to a learning problem in non-Markov decision processes.
キーワード(和) 強化学習 / 非マルコフ決定過程 / 方策勾配法
キーワード(英) Reinforcement learning / Non-Markov decision process / Policy-gradient method
資料番号 NC2006-148
発行日

研究会情報
研究会 NC
開催期間 2007/3/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例
サブタイトル(和)
タイトル(英) A Study of Policy-Gradient Methods in Non-Markov Decision Processes : Curling Game Application
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement learning
キーワード(2)(和/英) 非マルコフ決定過程 / Non-Markov decision process
キーワード(3)(和/英) 方策勾配法 / Policy-gradient method
第 1 著者 氏名(和/英) 五十嵐 治一 / Harukazu IGARASHI
第 1 著者 所属(和/英) 芝浦工業大学工学部
College of Engineering, Shibaura Institute of Technology
第 2 著者 氏名(和/英) 石原 聖司 / Seiji ISHIHARA
第 2 著者 所属(和/英) 近畿大学工学部
School of Engineering, Kinki University
第 3 著者 氏名(和/英) 木村 昌臣 / Masaomi KIMURA
第 3 著者 所属(和/英) 芝浦工業大学工学部
College of Engineering, Shibaura Institute of Technology
発表年月日 2007-03-14
資料番号 NC2006-148
巻番号(vol) vol.106
号番号(no) 588
ページ範囲 pp.-
ページ数 6
発行日