講演名 | 2007-03-14 非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例 五十嵐 治一, 石原 聖司, 木村 昌臣, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 強化学習には価値ベースと方策ベースの2つのアプローチがある.VAPSアルゴリズムは両者の統一を目指したアルゴリズムである.我々はこれまでにVAPSアルゴリズムの学習則が非マルコフ決定過程の学習問題へ適用できることを示してきた.本論文では例題としてカーリングゲームにおける運動の逆問題へ適用することを考える.学習の定式化によっては,マルコフ決定過程としても非マルコフ決定過程としても定式化することができるが,後者の場合にも方策表現を工夫することにより方策勾配法が適用できることを示す. |
抄録(英) | There are two approaches to reinforcement learning: value-based methods and policy-gradient methods. Baird and Moore proposed the VAPS algorithm to unify these two approaches. In a previous paper, we gave a simple proof in which the VAPS algorithm's learning rule can be extensively applied even in non-Markov decision processes and clarified statistical properties on the correlation between characteristic eligibility functions. In this paper, we investigate an inverse problem in a curling game and show that the problem can be formalized to a learning problem in non-Markov decision processes. |
キーワード(和) | 強化学習 / 非マルコフ決定過程 / 方策勾配法 |
キーワード(英) | Reinforcement learning / Non-Markov decision process / Policy-gradient method |
資料番号 | NC2006-148 |
発行日 |
研究会情報 | |
研究会 | NC |
---|---|
開催期間 | 2007/3/7(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Neurocomputing (NC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例 |
サブタイトル(和) | |
タイトル(英) | A Study of Policy-Gradient Methods in Non-Markov Decision Processes : Curling Game Application |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / Reinforcement learning |
キーワード(2)(和/英) | 非マルコフ決定過程 / Non-Markov decision process |
キーワード(3)(和/英) | 方策勾配法 / Policy-gradient method |
第 1 著者 氏名(和/英) | 五十嵐 治一 / Harukazu IGARASHI |
第 1 著者 所属(和/英) | 芝浦工業大学工学部 College of Engineering, Shibaura Institute of Technology |
第 2 著者 氏名(和/英) | 石原 聖司 / Seiji ISHIHARA |
第 2 著者 所属(和/英) | 近畿大学工学部 School of Engineering, Kinki University |
第 3 著者 氏名(和/英) | 木村 昌臣 / Masaomi KIMURA |
第 3 著者 所属(和/英) | 芝浦工業大学工学部 College of Engineering, Shibaura Institute of Technology |
発表年月日 | 2007-03-14 |
資料番号 | NC2006-148 |
巻番号(vol) | vol.106 |
号番号(no) | 588 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |