お知らせ 研究会の開催と会場に参加される皆様へのお願い(2021年10月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2009-03-12 14:50
Adaptive Importance Sampling with Automatic Model Selection in Reward Weighted Regression
Hirotaka HachiyaTokyo Inst. of Tech.)・Jan PetersMax Planck Inst. of Tech.)・Masashi SugiyamaTokyo Inst. of Tech.NC2008-145
抄録 (和) Direct policy search is a useful framework of reinforcement learning in particular in continuous systems such as robot control. Policy search often requires a large number of samples for obtaining a stable estimator due to its high flexibility, but this is prohibitive when the sampling cost is expensive. In this paper, we extend the state-of-the-art policy search method called reward weighted regression so that previously collected samples can be efficiently reused. The usefulness of the proposed method, called Reward-weighted Regression with sample Reuse (R3), is demonstrated through a toy example. 
(英) Direct policy search is a useful framework of reinforcement learning in particular in continuous systems such as robot control. Policy search often requires a large number of samples for obtaining a stable estimator due to its high flexibility, but this is prohibitive when the sampling cost is expensive. In this paper, we extend the state-of-the-art policy search method called reward weighted regression so that previously collected samples can be efficiently reused. The usefulness of the proposed method, called Reward-weighted Regression with sample Reuse (R3), is demonstrated through a toy example.
キーワード (和) 強化学習 / 政策探索法 / EMアルゴリズム / 適応的重点サンプリング / 重要度重み付き交差確認法 / データ再利用 / 機械学習 / ロボット制御  
(英) Reinforcement learning / Policy search / Expectation-Maximization algorithm / Adaptive importance sampling / Importance weighted cross validation / sample reuse / Covariate shift / robot control  
文献情報 信学技報, vol. 108, no. 480, NC2008-145, pp. 249-254, 2009年3月.
資料番号 NC2008-145 
発行日 2009-03-04 (NC) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2008-145

研究会情報
研究会 NC MBE  
開催期間 2009-03-11 - 2009-03-13 
開催地(和) 玉川大学 
開催地(英) Tamagawa Univ. 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NC 
会議コード 2009-03-NC-MBE 
本文の言語 英語 
タイトル(和)  
サブタイトル(和)  
タイトル(英) Adaptive Importance Sampling with Automatic Model Selection in Reward Weighted Regression 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / Reinforcement learning  
キーワード(2)(和/英) 政策探索法 / Policy search  
キーワード(3)(和/英) EMアルゴリズム / Expectation-Maximization algorithm  
キーワード(4)(和/英) 適応的重点サンプリング / Adaptive importance sampling  
キーワード(5)(和/英) 重要度重み付き交差確認法 / Importance weighted cross validation  
キーワード(6)(和/英) データ再利用 / sample reuse  
キーワード(7)(和/英) 機械学習 / Covariate shift  
キーワード(8)(和/英) ロボット制御 / robot control  
第1著者 氏名(和/英/ヨミ) 八谷 大岳 / Hirotaka Hachiya / ハチヤ ヒロタカ
第1著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Inst. of Tech.)
第2著者 氏名(和/英/ヨミ) Jan Peters / Jan Peters /
第2著者 所属(和/英) マックスプランク研究所 (略称: マックス・プランク研)
Max Planck Institute (略称: Max Planck Inst. of Tech.)
第3著者 氏名(和/英/ヨミ) 杉山 将 / Masashi Sugiyama / スギヤマ マサシ
第3著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Inst. of Tech.)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2009-03-12 14:50:00 
発表時間 25 
申込先研究会 NC 
資料番号 IEICE-NC2008-145 
巻番号(vol) IEICE-108 
号番号(no) no.480 
ページ範囲 pp.249-254 
ページ数 IEICE-6 
発行日 IEICE-NC-2009-03-04 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会