見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究

坂本充生; 阿部拳之; 岩崎　敦

大会名称
2021年情報科学技術フォーラム(FIT)
大会コ－ド
F
開催年
2021
発行日
2021-08-12
セッション番号
1e
セッション名
知能システムと知識処理(1)
講演日
2021/08/25
講演場所(会議室等)
e
講演番号
CF-002
タイトル
見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究
著者名
坂本充生, 阿部拳之, 岩崎　敦,
キーワード
強化学習, ゲーム理論, 囚人のジレンマ, マルチエージェント
抄録
本研究では，プレイヤが相手の行動を見間違えうる繰り返し囚人のジレンマにおけるQ学習がどのような協力的／非協力的振る舞いを獲得するかを吟味する．人はどのようにして協力するのかは人工知能や経済学，生物学における基本的な問題である．一般には，見間違えが起きる場合，従来よく知られているしっぺ返し戦略 (Tit-For-Tat, TFT) はどちらかがいったん裏切ると，協力状態に戻るのは難しい．一方で，戦略空間を有限状態機械に限定したレプリケータダイナミクスの下では，見間違えが起きても協力状態を回復しやすい戦略，Win-Stay，Loss-Shift (WSLS) が生き残ることが明らかになっている．そこで本研究では，Q学習がWSLSのような協調行動を回復できる方策を学習できるかを検証する．そのために，見違えの起きる環境でのQ学習アルゴリズムNeural Replicator Dynamics with Mutation (NeuRD+M)を提案した．その結果，NeuRD+Mは既存の学習アルゴリズムと比較して，報酬と協調率の点で優れており，WSLSのような行動を学習することを確認した
本文pdf
PDF download (1.2MB)