講演抄録/キーワード |
講演名 |
2010-11-05 15:30
[ポスター講演]動的計画法によるリターン分布推定 ○森村哲郎(日本IBM)・杉山 将(東工大)・鹿島久嗣(東大)・八谷大岳(東工大)・田中利幸(京大) IBISML2010-98 |
抄録 |
(和) |
(事前公開アブストラクト) リターン(累積報酬値)の分布推定により、分布から規定される任意の特徴量を指標とした意思決定策を考えることができる。そのため、リターン分布推定によって、期待値以外にバリュー・アット・リスク等のリスク指標も考慮した強化学習法の実現が期待できる。また、近年、リターン分布の推定法として、分布Bellman方程式を動的計画法に基づいて近似的に解く手法が提案された。しかしながら、その収束性に関する解析は十分でない。そこで本報告では、動的計画法により分布Bellman方程式を解いた場合の収束性を解析する。動的計画法により、リターンの初期推定分布に依存せず真のリターン分布に収束することや、真の分布のモーメントへの収束率を報告する。また、解析結果から、既存のリターン分布推定法の改善策についても議論する。 |
(英) |
(Advance abstract in Japanese is available) |
キーワード |
(和) |
/ / / / / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 110, no. 265, IBISML2010-98, pp. 283-290, 2010年11月. |
資料番号 |
IBISML2010-98 |
発行日 |
2010-10-28 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2010-98 |