講演抄録/キーワード |
講演名 |
2016-11-17 14:00
幾何学的双対表現を用いた部分観測マルコフ決定過程の近似的価値反復アルゴリズム ○塚原裕史・安倍 満・大林真人(デンソーアイティーラボラトリ) IBISML2016-71 |
抄録 |
(和) |
部分観測マルコフ決定過程(POMDP) の価値関数は,価値反復の再帰計算で現れる信念空間上の線形関数の集合の最大値を取った区分線形な凸関数によって表されるが,これらの線形関数をそれらの係数ベクトルの空間における点群へ写像した時,これらの点群の凸包上辺に対応することが知られている.本研究では,非負値行列因子分解を用いて凸包を近似計算する手法を利用し,双対空間においてPOMDP の価値関数を高速に近似計算する手法を提案する. |
(英) |
We propose new approximate algorithms for the value iteration of partially observable Markov decision
processes (POMDPs) in the dual representation. The value function of a POMDP can be obtained by solving the dynamic programming procedure iteratively and its form is known to be given by a piecewise linear and convex function.
The set of those linear functions can be mapped to a set of points by the duality transformations. In the dual space,
the value iteration can be solved by calculating the upper convex hull for the set of those points. Our algorithms
rely on this property and perform the value iteration by approximate calculation of convex hulls and approximate
extraction of their upper hulls by direction sampling, which can be regarded as a dual representation counterpart of
the belief sampling in the primal representation. |
キーワード |
(和) |
部分観測マルコフ決定過程 / 幾何学的双対変換 / 非負値行列因子分解 / / / / / |
(英) |
Partially observable Markov decision Processes / duality transformation / non-negative matrix decomposition / / / / / |
文献情報 |
信学技報, vol. 116, no. 300, IBISML2016-71, pp. 177-184, 2016年11月. |
資料番号 |
IBISML2016-71 |
発行日 |
2016-11-09 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2016-71 |