講演名 2013-01-24
協調行動学習における非定常性の重要性
田和 明洋, 前田 新一, 石井 信,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) マルチエージェント系における協調行動の発現機構の理解は重要である.その発現は主に進化ダイナミクスの文脈で説明がされてきたが,よりタイムスパンの短い個人の経験によっても協調行動が発現することが知られている.強化学習などの個体レベルの学習による協調行動の発現に関する考察は十分でない.本研究では,最も簡単なマルチエージェント系である囚人のジレンマ課題を用いて,この協調行動の強化学習による発現では,環境の非定常性を取り扱うことが重要であることを論ずる.ここで,環境の非定常性は,相手の行動方策が自分の行動に依存するとことに起因する.環境の定常性を仮定した強化学習法によれば協調行動が安定な解とならない一方で,内部状態をもつ方策に対する方策勾配型強化学習法によれば協調行動の学習が可能になることを示す.
抄録(英) To understand how cooperative behaviors emerge is important in the field of multi-agent system research. Although this emergence mechanism has been mainly discussed in the context of evolution dynamics, it is known that cooperative behaviors also appear in a short time course of individuals. Discussion of emergence mechanisms in terms of individual learning such as reinforcement learning is not sufficient In this study, we point out the significance of incorporating non-stationanty of the target environment into reinforcement learning of adaptive behaviors, by using one of the simplest multi-agent systems, i.e., a pnsoner's dilemma problem. The non-stationanty in the pnsoner's dilemma problem stems from the opponent's behavior being dependent on the agent's behavior We show that the cooperative behavior is not a stable solution by reinforcement learning which implicitly assumes the environmental stationanty, whereas policy-based reinforcement learning which assumes the non-stationary environment is modeled as a partially observable Markov decision process can stably obtain cooperative behaviors.
キーワード(和) 強化学習 / 協調行動 / 囚人のジレンマ / 部分観側マルコフ決定過程
キーワード(英) reinforcement learning / cooperative behavior / prisoner's dilemma / partially observable Markov decision process
資料番号 NLP2012-108,NC2012-98
発行日

研究会情報
研究会 NLP
開催期間 2013/1/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Nonlinear Problems (NLP)
本文の言語 JPN
タイトル(和) 協調行動学習における非定常性の重要性
サブタイトル(和)
タイトル(英) Significance of non-stationarity of dynamics for learning cooperative behavior
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) 協調行動 / cooperative behavior
キーワード(3)(和/英) 囚人のジレンマ / prisoner's dilemma
キーワード(4)(和/英) 部分観側マルコフ決定過程 / partially observable Markov decision process
第 1 著者 氏名(和/英) 田和 明洋 / Akihiro TAWA
第 1 著者 所属(和/英) 京都大学工学部電気電子工学科
Undergraduate School of Electnc and Electronic Engineering, Faculty of Engineenng, Kyoto University
第 2 著者 氏名(和/英) 前田 新一 / Shin-ichi MAEDA
第 2 著者 所属(和/英) 京都大学工学部電気電子工学科
Undergraduate School of Electnc and Electronic Engineering, Faculty of Engineenng, Kyoto University
第 3 著者 氏名(和/英) 石井 信 / Shin ISHII
第 3 著者 所属(和/英) 京都大学工学部電気電子工学科
Undergraduate School of Electnc and Electronic Engineering, Faculty of Engineenng, Kyoto University
発表年月日 2013-01-24
資料番号 NLP2012-108,NC2012-98
巻番号(vol) vol.112
号番号(no) 389
ページ範囲 pp.-
ページ数 6
発行日