講演抄録/キーワード |
講演名 |
2008-03-13 14:10
確率的パラメータを持つ方策関数に対する方策勾配法 ○中村 泰(阪大) NC2007-170 |
抄録 |
(和) |
強化学習の一種である方策勾配法は, 方策関数のパラメータ, すなわち方策パラメータを, 方策勾配に基づき更新する手法である. 本報告では, 方策パラメータを生成する確率モデルに対する学習法を提案する. この方法は, アンサンブル学習の一種となっており, 方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる. 提案手法を単純な力学系の制御問題に適用し, その動作を調べた. |
(英) |
Stochastic policy gradient methods are a type of reinforcement learning method, where the parameter of the policy parameter is updated according to the gradient with respect to called policy gradient. In this report, I propose a learning method for a probabilistic model, which generates policy parameters. This learning method is a kind of ensemble learning method, and can handle the ``exploration-exploitation problem'' by changing the variation of policy parameters. I apply my method to the automatic control of simple dynamical systems, and investigate the perfomance. |
キーワード |
(和) |
強化学習 / 確率的方策勾配法 / アンサンブル学習 / 探索搾取問題 / / / / |
(英) |
Reinforcement learning / stochastic policy gradient method / ensemble learning / exploration-exploitation problem / / / / |
文献情報 |
信学技報, vol. 107, no. 542, NC2007-170, pp. 343-348, 2008年3月. |
資料番号 |
NC2007-170 |
発行日 |
2008-03-05 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2007-170 |
研究会情報 |
研究会 |
NC MBE |
開催期間 |
2008-03-12 - 2008-03-14 |
開催地(和) |
玉川大学 |
開催地(英) |
Tamagawa Univ |
テーマ(和) |
一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2008-03-NC-MBE |
本文の言語 |
日本語 |
タイトル(和) |
確率的パラメータを持つ方策関数に対する方策勾配法 |
サブタイトル(和) |
|
タイトル(英) |
Policy gradient method for a policy function with probabilistic parameters |
サブタイトル(英) |
|
キーワード(1)(和/英) |
強化学習 / Reinforcement learning |
キーワード(2)(和/英) |
確率的方策勾配法 / stochastic policy gradient method |
キーワード(3)(和/英) |
アンサンブル学習 / ensemble learning |
キーワード(4)(和/英) |
探索搾取問題 / exploration-exploitation problem |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
中村 泰 / Yutaka Nakamura / ナカムラ ユタカ |
第1著者 所属(和/英) |
大阪大学 (略称: 阪大)
Osaka university (略称: Osaka Univ.) |
第2著者 氏名(和/英/ヨミ) |
/ / |
第2著者 所属(和/英) |
(略称: )
(略称: ) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2008-03-13 14:10:00 |
発表時間 |
20分 |
申込先研究会 |
NC |
資料番号 |
NC2007-170 |
巻番号(vol) |
vol.107 |
号番号(no) |
no.542 |
ページ範囲 |
pp.343-348 |
ページ数 |
6 |
発行日 |
2008-03-05 (NC) |
|