講演抄録/キーワード |
講演名 |
2010-03-11 09:50
確率的逐次決定過程の分類 ~ 情報スペクトル的アプローチ ~ ○岩田一貴(広島市大) NC2009-144 |
抄録 |
(和) |
マルコフ決定過程は,強化学習において,エージェントと環境の相互作用の枠
組みを表現するための最も代表的な確率的逐次決定過程である.
マルコフ決定過程は定常エルゴードであることを仮定されることが多いが,強
化学習の応用で現れる大部分の確率的逐次決定過程はマルコフ性,定常性,エ
ルゴード性を満たすとは限らない.
本論文では,定常エルゴードマルコフ決定過程よりも一般的な確率的逐次決定
過程における収益最大化において,ある情報スペクトル的性質が重要な役割を
果たすことを示す.
また,収益最大化のための必要条件を使って確率的逐次決定過程を分類し,必
要条件を満たす確率的逐次決定過程における収益最大化の例をいくつか示す. |
(英) |
Markov decision processes are the most popular stochastic sequential
decision processes in reinforcement learning for representing the
framework of interactions between an agent and an environment.
We frequently regard the Markov decision process as a stationary and
ergodic process, but most stochastic sequential decision processes
arising in reinforcement learning are in fact, not necessarily
Markovian, stationary, or ergodic.
In this paper, we show that an information-spectrum property plays an
important role in return maximization in more general processes than
stationary and ergodic Markov decision processes.
We also present a class of stochastic sequential decision processes
with the necessary condition for return maximization.
We provide several examples of best sequences in terms of return
maximization in the class. |
キーワード |
(和) |
確率的逐次決定過程 / 強化学習 / 情報スペクトル / / / / / |
(英) |
stochastic sequential decision process / reinforcement learning / information spectrum / / / / / |
文献情報 |
信学技報, vol. 109, no. 461, NC2009-144, pp. 333-338, 2010年3月. |
資料番号 |
NC2009-144 |
発行日 |
2010-03-02 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2009-144 |