行動履歴データによる行動方策学習者の探索戦略変化の推定

内田,滋穂里; 大羽,成征; 石井,信

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2017-03-13 10:25 行動履歴データによる行動方策学習者の探索戦略変化の推定 ○内田滋穂里・大羽成征・石井　信（京大） NC2016-65
抄録	（和）	強化学習は，目的に合う方策を未知の環境との相互作用に基づく学習によって決める機械学習手法であり，ヒトを含む動物による自律的な意思決定モデルとして利用される．動物の学習は，新奇性の高い行動（探索的行動）を通して環境の知識を蓄積したのちに，現在の知識に基づく最適な行動（搾取的行動）へと移り変わるとされる．同様に，強化学習エージェントも，学習時において探索的行動から搾取的行動にその行動戦略を変化させる考えられる．本研究では，行動選択の特徴を与える行動方策のハイパーパラメタに着目し，このハイパーパラメタとその変化のタイミングをエージェントの学習過程の状態・行動の履歴から推定する手法を提案する．これにより，学習過程における方策の変化（行動戦略）を状態・行動の履歴から推定することが可能となる．人工データを用いて実験を行ったところ，ハイパーパラメタとその変化のタイミングの推定が行えることが分かった．
	（英）	Reinforcement learning (RL) is a model of learning process of animals and intelligent agents to obtain the optimal behavioral policy based on interactions with unknown environments. Inverse reinforcement learning (IRL) is its opposite, in which the characteristics like reward function of the RL agent are estimated based on the history of the agent's behaviors. In the uncertain environment, the RL agent needs to balance between the currently good behavioral policy (exploitation) and an exploration policy for resolving the uncertainty of the environment (exploration). The existing IRL methods were not appropriate to identify the RL agent's characteristics when it is taking a mixed strategy performing exploitation and exploration depending on its situation. In this study, we proposed a new IRL method that enabled dissociation of different behavioral policies but with the common reward function. Our computer simulation showed that, our method successfully identifies not only the timing of the policy change, but also the other RL parameters like behavioral randomness and the common reward function, only from the agent's behaviors.
キーワード	（和）	強化学習 / 逆強化学習 / 行動戦略 / / / / /
	（英）	Reinforcement learning / Inverse reinforcement learning / Behavior strategy / / / / /
文献情報		信学技報, vol. 116, no. 521, NC2016-65, pp. 7-12, 2017年3月.
資料番号		NC2016-65
発行日		2017-03-06 (NC)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NC2016-65

研究会情報
研究会	MBE NC
開催期間	2017-03-13 - 2017-03-14
開催地（和）	機械振興会館
開催地（英）	Kikai-Shinko-Kaikan Bldg.
テーマ（和）	ME, 一般
テーマ（英）
講演論文情報の詳細
申込み研究会	NC
会議コード	2017-03-MBE-NC
本文の言語	日本語
タイトル（和）	行動履歴データによる行動方策学習者の探索戦略変化の推定
サブタイトル（和）
タイトル（英）	Estimation of the change of agent's behavior strategy using state-action history
サブタイトル（英）
キーワード(1)（和/英）	強化学習 / Reinforcement learning
キーワード(2)（和/英）	逆強化学習 / Inverse reinforcement learning
キーワード(3)（和/英）	行動戦略 / Behavior strategy
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	内田滋穂里 / Shihori Uchida / ウチダシホリ
第1著者所属（和/英）	京都大学 (略称：京大) Kyoto University (略称： Kyoto Univ.)
第2著者氏名（和/英/ヨミ）	大羽成征 / Shigeyuki Oba / オオバシゲユキ
第2著者所属（和/英）	京都大学 (略称：京大) Kyoto University (略称： Kyoto Univ.)
第3著者氏名（和/英/ヨミ）	石井信 / Shin Ishii / イシイシン
第3著者所属（和/英）	京都大学 (略称：京大) Kyoto University (略称： Kyoto Univ.)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2017-03-13 10:25:00
発表時間	25分
申込先研究会	NC
資料番号	NC2016-65
巻番号（vol）	vol.116
号番号（no）	no.521
ページ範囲	pp.7-12
ページ数	6
発行日	2017-03-06 (NC)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会