強化学習によるゲームの評価関数の獲得

但馬 康宏

講演名	2009-09-14 強化学習によるゲームの評価関数の獲得但馬康宏,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	二人零和有限完全情報ゲームをプレイするアルゴリズムは,ゲームの途中局面を評価する評価関数を作成し,ミニマックス法にてゲーム木を探索することによりよい手を探すことができる.本研究では,強化学習の代表的な学習アルゴリズムであるQ学習をゲームの評価関数獲得に用いてパラメータ調整を行った.とくに,Q学習の状態遷移における報酬を以下の3通り,(1)ランダムシミュレーションの勝率とする方法,(2)UCB1アルゴリズムの勝率とする方法,(3)UCTアルゴリズムの勝率とする方法,とすることを提案し,それぞれのモデルについて評価実験を行った.その結果,従来のモデル化よりも収束までの学習回数を改善することができた.
抄録(英)	On finite two-person zero-sum perfect-information games, we can find the best move by minmax search on the game tree with an evaluation function. In this paper, we propose a parameter acquisition method of an evaluation function by Q-learning. In our method, there are three variations of rewards on a state transition: (1) the winning rate of random simulations, (2) the winning rate of the output of UCB1 algorithm, and (3) the winning rate of UCT algorithm. Then, we evaluate the effectiveness of our method in experiments.
キーワード(和)	Q学習 / ゲーム木探索 / 評価関数 / k本腕バンデット問題
キーワード(英)	Q learning / game tree / evaluation function / k-armed bandit problem
資料番号	COMP2009-28
発行日

研究会情報
研究会	COMP
開催期間	2009/9/7(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Theoretical Foundations of Computing (COMP)
本文の言語	JPN
タイトル（和）	強化学習によるゲームの評価関数の獲得
サブタイトル（和）
タイトル（英）	Parameter acquisition of an evaluation function for games by reinforcement learning
サブタイトル（和）
キーワード(1)（和/英）	Q学習 / Q learning
キーワード(2)（和/英）	ゲーム木探索 / game tree
キーワード(3)（和/英）	評価関数 / evaluation function
キーワード(4)（和/英）	k本腕バンデット問題 / k-armed bandit problem
第 1 著者氏名（和/英）	但馬康宏 / Yasuhiro TAJIMA
第 1 著者所属（和/英）	岡山県立大学情報工学部 Okayama Prefectural University Faculty of Information Engineering
発表年月日	2009-09-14
資料番号	COMP2009-28
巻番号（vol）	vol.109
号番号（no）	195
ページ範囲	pp.-
ページ数	6
発行日