講演名 | 2018-03-12 Learning in Two-Player Matrix Games by Policy Gradient Lagging Anchor 丁 世堯(阪大), 潮 俊光(阪大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | We propose a novel multi-agent reinforcement learning (MARL) algorithm which is called a policy gra-dient lagging anchor (PGLA) algorithm. Then, we consider 2 two-player matrix games as illustrative examples. Andit is shown by simulation that behaviors of the games using the PGLA algorithm can converge to Nash equilibriain both pure and mixed policies. |
抄録(英) | We propose a novel multi-agent reinforcement learning (MARL) algorithm which is called a policy gra-dient lagging anchor (PGLA) algorithm. Then, we consider 2 two-player matrix games as illustrative examples. Andit is shown by simulation that behaviors of the games using the PGLA algorithm can converge to Nash equilibriain both pure and mixed policies. |
キーワード(和) | Reinforcement Learning / Policy Gradient / Multi-Agent Systems / Matrix Game |
キーワード(英) | Reinforcement Learning / Policy Gradient / Multi-Agent Systems / Matrix Game |
資料番号 | MSS2017-79 |
発行日 | 2018-03-05 (MSS) |
研究会情報 | |
研究会 | MSS / NLP |
---|---|
開催期間 | 2018/3/12(から3日開催) |
開催地(和) | 大阪大学豊中キャンパス |
開催地(英) | |
テーマ(和) | SICE-DES研究会,IEICE-NLP, MSSの3研究会併催,一般および Work In Progress(WIP) ※(WIPセッションはDES,MSSのみ.「詳細はこちら」参照) |
テーマ(英) | |
委員長氏名(和) | 名嘉村 盛和(琉球大) / 安達 雅春(東京電機大) |
委員長氏名(英) | Morikazu Nakamura(Univ. of Ryukyus) / Masaharu Adachi(Tokyo Denki Univ.) |
副委員長氏名(和) | 髙井 重昌(阪大) / 高橋 規一(岡山大) |
副委員長氏名(英) | Shigemasa Takai(Osaka Univ.) / Norikazu Takahashi(Okayama Univ.) |
幹事氏名(和) | 豊嶋 伊知郎(東芝エネルギーシステムズ) / 金澤 尚史(阪大) / 坪根 正(長岡技科大) / 山内 将行(広島工大) |
幹事氏名(英) | Ichiro Toyoshima(Toshiba) / Takahumi Kanazawa(Osaka Univ.) / Tadashi Tsubone(Nagaoka Univ. of Tech.) / Masayuki Yamauchi(Hiroshima Inst. of Tech.) |
幹事補佐氏名(和) | 金城 秀樹(沖縄大) / 橘 俊宏(湘南工科大) / 木村 真之(京大) |
幹事補佐氏名(英) | Hideki Kinjo(Okinawa Univ.) / Toshihiro Tachibana(Shonan Inst. of Tech.) / Masayuki Kimura(Kyoto Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Mathematical Systems Science and its applications / Technical Committee on Nonlinear Problems |
---|---|
本文の言語 | ENG |
タイトル(和) | |
サブタイトル(和) | |
タイトル(英) | Learning in Two-Player Matrix Games by Policy Gradient Lagging Anchor |
サブタイトル(和) | |
キーワード(1)(和/英) | Reinforcement Learning / Reinforcement Learning |
キーワード(2)(和/英) | Policy Gradient / Policy Gradient |
キーワード(3)(和/英) | Multi-Agent Systems / Multi-Agent Systems |
キーワード(4)(和/英) | Matrix Game / Matrix Game |
第 1 著者 氏名(和/英) | 丁 世堯 / Shiyao Ding |
第 1 著者 所属(和/英) | 大阪大学(略称:阪大) Osaka University(略称:Osaka Univ.) |
第 2 著者 氏名(和/英) | 潮 俊光 / Toshimitsu Ushio |
第 2 著者 所属(和/英) | 大阪大学(略称:阪大) Osaka University(略称:Osaka Univ.) |
発表年月日 | 2018-03-12 |
資料番号 | MSS2017-79 |
巻番号(vol) | vol.117 |
号番号(no) | MSS-506 |
ページ範囲 | pp.11-14(MSS), |
ページ数 | 4 |
発行日 | 2018-03-05 (MSS) |