講演名 | 2009-09-14 強化学習によるゲームの評価関数の獲得 但馬 康宏, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 二人零和有限完全情報ゲームをプレイするアルゴリズムは,ゲームの途中局面を評価する評価関数を作成し,ミニマックス法にてゲーム木を探索することによりよい手を探すことができる.本研究では,強化学習の代表的な学習アルゴリズムであるQ学習をゲームの評価関数獲得に用いてパラメータ調整を行った.とくに,Q学習の状態遷移における報酬を以下の3通り,(1)ランダムシミュレーションの勝率とする方法,(2)UCB1アルゴリズムの勝率とする方法,(3)UCTアルゴリズムの勝率とする方法,とすることを提案し,それぞれのモデルについて評価実験を行った.その結果,従来のモデル化よりも収束までの学習回数を改善することができた. |
抄録(英) | On finite two-person zero-sum perfect-information games, we can find the best move by minmax search on the game tree with an evaluation function. In this paper, we propose a parameter acquisition method of an evaluation function by Q-learning. In our method, there are three variations of rewards on a state transition: (1) the winning rate of random simulations, (2) the winning rate of the output of UCB1 algorithm, and (3) the winning rate of UCT algorithm. Then, we evaluate the effectiveness of our method in experiments. |
キーワード(和) | Q学習 / ゲーム木探索 / 評価関数 / k本腕バンデット問題 |
キーワード(英) | Q learning / game tree / evaluation function / k-armed bandit problem |
資料番号 | COMP2009-28 |
発行日 |
研究会情報 | |
研究会 | COMP |
---|---|
開催期間 | 2009/9/7(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Theoretical Foundations of Computing (COMP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 強化学習によるゲームの評価関数の獲得 |
サブタイトル(和) | |
タイトル(英) | Parameter acquisition of an evaluation function for games by reinforcement learning |
サブタイトル(和) | |
キーワード(1)(和/英) | Q学習 / Q learning |
キーワード(2)(和/英) | ゲーム木探索 / game tree |
キーワード(3)(和/英) | 評価関数 / evaluation function |
キーワード(4)(和/英) | k本腕バンデット問題 / k-armed bandit problem |
第 1 著者 氏名(和/英) | 但馬 康宏 / Yasuhiro TAJIMA |
第 1 著者 所属(和/英) | 岡山県立大学情報工学部 Okayama Prefectural University Faculty of Information Engineering |
発表年月日 | 2009-09-14 |
資料番号 | COMP2009-28 |
巻番号(vol) | vol.109 |
号番号(no) | 195 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |