レシーバの行動決定モデルを利用したスルーパスの強化学習

山岸　準; 五十嵐治一

大会名称
2017年情報科学技術フォーラム(FIT)
大会コ－ド
F
開催年
2017
発行日
2017-09-05
セッション番号
3F
セッション名
ゲーム情報学
講演日
2017/09/12
講演場所(会議室等)
2号館4階 242号講義室
講演番号
F-032
タイトル
レシーバの行動決定モデルを利用したスルーパスの強化学習
著者名
山岸　準, 五十嵐治一,
キーワード
ロボカップ, サッカー, シミュレーション, 強化学習, 方策勾配法
抄録
Robocupサッカーシミュレーション2Dリーグではプレイヤエージェントは探索木と評価関数を用いてドリブルやパスなどの行動決定を行っている。本研究では、相手の行動評価を考慮する相互作用の項を評価関数に導入し協調行動を促進させることを試みた。さらに、人間の主観評価による報酬を用いて強化学習を行い、評価関数の重みを学習した。3人の被験者により強化学習を行った結果、ある被験者ではスルーパスが増加し、別の被験者ではゴール前のパス回しが強化された。agent2dと呼ばれるオープンソースのチームに対するが勝率も40.5％から66.0％まで向上させることができた。
本文pdf
PDF download (1.1MB)