お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2008-03-13 14:10
確率的パラメータを持つ方策関数に対する方策勾配法
中村 泰阪大NC2007-170
抄録 (和) 強化学習の一種である方策勾配法は, 方策関数のパラメータ, すなわち方策パラメータを, 方策勾配に基づき更新する手法である. 本報告では, 方策パラメータを生成する確率モデルに対する学習法を提案する. この方法は, アンサンブル学習の一種となっており, 方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる. 提案手法を単純な力学系の制御問題に適用し, その動作を調べた. 
(英) Stochastic policy gradient methods are a type of reinforcement learning method, where the parameter of the policy parameter is updated according to the gradient with respect to called policy gradient. In this report, I propose a learning method for a probabilistic model, which generates policy parameters. This learning method is a kind of ensemble learning method, and can handle the ``exploration-exploitation problem'' by changing the variation of policy parameters. I apply my method to the automatic control of simple dynamical systems, and investigate the perfomance.
キーワード (和) 強化学習 / 確率的方策勾配法 / アンサンブル学習 / 探索搾取問題 / / / /  
(英) Reinforcement learning / stochastic policy gradient method / ensemble learning / exploration-exploitation problem / / / /  
文献情報 信学技報, vol. 107, no. 542, NC2007-170, pp. 343-348, 2008年3月.
資料番号 NC2007-170 
発行日 2008-03-05 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2007-170

研究会情報
研究会 NC MBE  
開催期間 2008-03-12 - 2008-03-14 
開催地(和) 玉川大学 
開催地(英) Tamagawa Univ 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2008-03-NC-MBE 
本文の言語 日本語 
タイトル(和) 確率的パラメータを持つ方策関数に対する方策勾配法 
サブタイトル(和)  
タイトル(英) Policy gradient method for a policy function with probabilistic parameters 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / Reinforcement learning  
キーワード(2)(和/英) 確率的方策勾配法 / stochastic policy gradient method  
キーワード(3)(和/英) アンサンブル学習 / ensemble learning  
キーワード(4)(和/英) 探索搾取問題 / exploration-exploitation problem  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 中村 泰 / Yutaka Nakamura / ナカムラ ユタカ
第1著者 所属(和/英) 大阪大学 (略称: 阪大)
Osaka university (略称: Osaka Univ.)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2008-03-13 14:10:00 
発表時間 20分 
申込先研究会 NC 
資料番号 NC2007-170 
巻番号(vol) vol.107 
号番号(no) no.542 
ページ範囲 pp.343-348 
ページ数
発行日 2008-03-05 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会