講演抄録/キーワード |
講演名 |
2013-01-24 10:50
協調行動学習のための非定常性の重要性 ○田和明洋・前田新一・石井 信(京大) NLP2012-108 NC2012-98 |
抄録 |
(和) |
マルチエージェント系における協調行動の発現機構の理解は重要である.その発現は主に進化ダイナミクスの文脈で説明がされてきたが,よりタイムスパンの短い個人の経験によっても協調行動が発現することが知られている.強化学習などの個体レベルの学習による協調行動の発現に関する考察は十分でない.本研究では,最も簡単なマルチエージェント系である囚人のジレンマ課題を用いて,この協調行動の強化学習による発現では,環境の非定常性を取り扱うことが重要であることを論ずる.ここで,環境の非定常性は,相手の行動方策が自分の行動に依存するとことに起因する.環境の定常性を仮定した強化学習法によれば協調行動が安定な解とならない一方で,内部状態をもつ方策に対する方策勾配型強化学習法によれば協調行動の学習が可能になることを示す. |
(英) |
To understand how cooperative behaviors emerge is important in the field of multi-agent system research. Although this emergence mechanism has been mainly discussed in the context of evolution dynamics, it is known that cooperative behaviors also appear in a short time course of individuals. Discussion of emergence mechanisms in terms of individual learning such as reinforcement learning is not sufficient. In this study, we point out the significance of incorporating non-stationarity of the target environment into reinforcement learning of adaptive behaviors, by using one of the simplest multi-agent systems, i.e., a prisoner's dilemma problem. The non-stationarity in the prisoner's dilemma problem stems from the opponent’s behavior being dependent on the agent’s behavior. We show that the cooperative behavior is not a stable solution by reinforcement learning which implicitly assumes the environmental stationarity, whereas policy-based reinforcement learning which assumes the non-stationary environment is modeled as a partially observable Markov decision process can stably obtain cooperative behaviors. |
キーワード |
(和) |
強化学習 / 協調行動 / 囚人のジレンマ / 部分観測マルコフ決定過程 / / / / |
(英) |
reinforcement learning / cooperative behavior / prisoner's dilemma / partially observable Markov decision process / / / / |
文献情報 |
信学技報, vol. 112, no. 390, NC2012-98, pp. 25-30, 2013年1月. |
資料番号 |
NC2012-98 |
発行日 |
2013-01-17 (NLP, NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLP2012-108 NC2012-98 |
研究会情報 |
研究会 |
NC NLP |
開催期間 |
2013-01-24 - 2013-01-25 |
開催地(和) |
北海道大学百年記念会館 |
開催地(英) |
Hokkaido University Centennial Memory Hall |
テーマ(和) |
一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2013-01-NC-NLP |
本文の言語 |
日本語 |
タイトル(和) |
協調行動学習のための非定常性の重要性 |
サブタイトル(和) |
|
タイトル(英) |
Significance of non-stationary of dynamics for learning cooperative behavior |
サブタイトル(英) |
|
キーワード(1)(和/英) |
強化学習 / reinforcement learning |
キーワード(2)(和/英) |
協調行動 / cooperative behavior |
キーワード(3)(和/英) |
囚人のジレンマ / prisoner's dilemma |
キーワード(4)(和/英) |
部分観測マルコフ決定過程 / partially observable Markov decision process |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
田和 明洋 / Akihiro Tawa / 田和 明洋 |
第1著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第2著者 氏名(和/英/ヨミ) |
前田 新一 / Shin-ichi Maeda / |
第2著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第3著者 氏名(和/英/ヨミ) |
石井 信 / Shin Ishii / |
第3著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2013-01-24 10:50:00 |
発表時間 |
20分 |
申込先研究会 |
NC |
資料番号 |
NLP2012-108, NC2012-98 |
巻番号(vol) |
vol.112 |
号番号(no) |
no.389(NLP), no.390(NC) |
ページ範囲 |
pp.25-30 |
ページ数 |
6 |
発行日 |
2013-01-17 (NLP, NC) |
|