お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2013-01-24 10:50
協調行動学習のための非定常性の重要性
田和明洋前田新一石井 信京大NLP2012-108 NC2012-98
抄録 (和) マルチエージェント系における協調行動の発現機構の理解は重要である.その発現は主に進化ダイナミクスの文脈で説明がされてきたが,よりタイムスパンの短い個人の経験によっても協調行動が発現することが知られている.強化学習などの個体レベルの学習による協調行動の発現に関する考察は十分でない.本研究では,最も簡単なマルチエージェント系である囚人のジレンマ課題を用いて,この協調行動の強化学習による発現では,環境の非定常性を取り扱うことが重要であることを論ずる.ここで,環境の非定常性は,相手の行動方策が自分の行動に依存するとことに起因する.環境の定常性を仮定した強化学習法によれば協調行動が安定な解とならない一方で,内部状態をもつ方策に対する方策勾配型強化学習法によれば協調行動の学習が可能になることを示す. 
(英) To understand how cooperative behaviors emerge is important in the field of multi-agent system research. Although this emergence mechanism has been mainly discussed in the context of evolution dynamics, it is known that cooperative behaviors also appear in a short time course of individuals. Discussion of emergence mechanisms in terms of individual learning such as reinforcement learning is not sufficient. In this study, we point out the significance of incorporating non-stationarity of the target environment into reinforcement learning of adaptive behaviors, by using one of the simplest multi-agent systems, i.e., a prisoner's dilemma problem. The non-stationarity in the prisoner's dilemma problem stems from the opponent’s behavior being dependent on the agent’s behavior. We show that the cooperative behavior is not a stable solution by reinforcement learning which implicitly assumes the environmental stationarity, whereas policy-based reinforcement learning which assumes the non-stationary environment is modeled as a partially observable Markov decision process can stably obtain cooperative behaviors.
キーワード (和) 強化学習 / 協調行動 / 囚人のジレンマ / 部分観測マルコフ決定過程 / / / /  
(英) reinforcement learning / cooperative behavior / prisoner's dilemma / partially observable Markov decision process / / / /  
文献情報 信学技報, vol. 112, no. 390, NC2012-98, pp. 25-30, 2013年1月.
資料番号 NC2012-98 
発行日 2013-01-17 (NLP, NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NLP2012-108 NC2012-98

研究会情報
研究会 NC NLP  
開催期間 2013-01-24 - 2013-01-25 
開催地(和) 北海道大学百年記念会館 
開催地(英) Hokkaido University Centennial Memory Hall 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2013-01-NC-NLP 
本文の言語 日本語 
タイトル(和) 協調行動学習のための非定常性の重要性 
サブタイトル(和)  
タイトル(英) Significance of non-stationary of dynamics for learning cooperative behavior 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) 協調行動 / cooperative behavior  
キーワード(3)(和/英) 囚人のジレンマ / prisoner's dilemma  
キーワード(4)(和/英) 部分観測マルコフ決定過程 / partially observable Markov decision process  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 田和 明洋 / Akihiro Tawa / 田和 明洋
第1著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第2著者 氏名(和/英/ヨミ) 前田 新一 / Shin-ichi Maeda /
第2著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第3著者 氏名(和/英/ヨミ) 石井 信 / Shin Ishii /
第3著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2013-01-24 10:50:00 
発表時間 20分 
申込先研究会 NC 
資料番号 NLP2012-108, NC2012-98 
巻番号(vol) vol.112 
号番号(no) no.389(NLP), no.390(NC) 
ページ範囲 pp.25-30 
ページ数
発行日 2013-01-17 (NLP, NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会