講演抄録/キーワード |
講演名 |
2017-03-13 10:25
行動履歴データによる行動方策学習者の探索戦略変化の推定 ○内田滋穂里・大羽成征・石井 信(京大) NC2016-65 |
抄録 |
(和) |
強化学習は,目的に合う方策を未知の環境との相互作用に基づく学習によって決める機械学習手法であり,ヒトを含む動物による自律的な意思決定モデルとして利用される.
動物の学習は,新奇性の高い行動(探索的行動)を通して環境の知識を蓄積したのちに,現在の知識に基づく最適な行動(搾取的行動)へと移り変わるとされる.
同様に,強化学習エージェントも,学習時において探索的行動から搾取的行動にその行動戦略を変化させる考えられる.
本研究では,行動選択の特徴を与える行動方策のハイパーパラメタに着目し,このハイパーパラメタとその変化のタイミングをエージェントの学習過程の状態・行動の履歴から推定する手法を提案する.
これにより,学習過程における方策の変化(行動戦略)を状態・行動の履歴から推定することが可能となる.
人工データを用いて実験を行ったところ, ハイパーパラメタとその変化のタイミングの推定が行えることが分かった. |
(英) |
Reinforcement learning (RL) is a model of learning process of animals and intelligent agents to obtain the optimal behavioral policy based on interactions with unknown environments.
Inverse reinforcement learning (IRL) is its opposite, in which the characteristics like reward function of the RL agent are estimated based on the history of the agent's behaviors.
In the uncertain environment, the RL agent needs to balance between the currently good behavioral policy (exploitation) and an exploration policy for resolving the uncertainty of the environment (exploration).
The existing IRL methods were not appropriate to identify the RL agent's characteristics when it is taking a mixed strategy performing exploitation and exploration depending on its situation.
In this study, we proposed a new IRL method that enabled dissociation of different behavioral policies but with the common reward function.
Our computer simulation showed that, our method successfully identifies not only the timing of the policy change, but also the other RL parameters like behavioral randomness and the common reward function, only from the agent's behaviors. |
キーワード |
(和) |
強化学習 / 逆強化学習 / 行動戦略 / / / / / |
(英) |
Reinforcement learning / Inverse reinforcement learning / Behavior strategy / / / / / |
文献情報 |
信学技報, vol. 116, no. 521, NC2016-65, pp. 7-12, 2017年3月. |
資料番号 |
NC2016-65 |
発行日 |
2017-03-06 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2016-65 |
研究会情報 |
研究会 |
MBE NC |
開催期間 |
2017-03-13 - 2017-03-14 |
開催地(和) |
機械振興会館 |
開催地(英) |
Kikai-Shinko-Kaikan Bldg. |
テーマ(和) |
ME, 一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2017-03-MBE-NC |
本文の言語 |
日本語 |
タイトル(和) |
行動履歴データによる行動方策学習者の探索戦略変化の推定 |
サブタイトル(和) |
|
タイトル(英) |
Estimation of the change of agent's behavior strategy using state-action history |
サブタイトル(英) |
|
キーワード(1)(和/英) |
強化学習 / Reinforcement learning |
キーワード(2)(和/英) |
逆強化学習 / Inverse reinforcement learning |
キーワード(3)(和/英) |
行動戦略 / Behavior strategy |
キーワード(4)(和/英) |
/ |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
内田 滋穂里 / Shihori Uchida / ウチダ シホリ |
第1著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第2著者 氏名(和/英/ヨミ) |
大羽 成征 / Shigeyuki Oba / オオバ シゲユキ |
第2著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第3著者 氏名(和/英/ヨミ) |
石井 信 / Shin Ishii / イシイ シン |
第3著者 所属(和/英) |
京都大学 (略称: 京大)
Kyoto University (略称: Kyoto Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2017-03-13 10:25:00 |
発表時間 |
25分 |
申込先研究会 |
NC |
資料番号 |
NC2016-65 |
巻番号(vol) |
vol.116 |
号番号(no) |
no.521 |
ページ範囲 |
pp.7-12 |
ページ数 |
6 |
発行日 |
2017-03-06 (NC) |