講演名 2004/3/12
典型系列を使った強化学習の解析
岩田 一貴, 池田 和司, 酒井 英昭,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習における経験系列上では漸近等分割性と呼ばれる重要な性質が成り立つ.本論では,この性質を使って探査の明確な定義を与える.また,収益の最大化が確率的複雑さと環境に依存するある量によって特徴づけられることを示す.さらに,行動選択戦略のパラメータを調整するのに役立つ確率的複雑さの感度と,経験系列が最適な系列になる収束速度の限界を明らかにする.ここで,最適な系列とは最大収益をもたらす経験系列のことをいう.
抄録(英) An important property called the asymptotic equipartition property holds on empirical sequences in reinforcement learning. Using this property we elucidate the explicit performance of exploration, and the fact that the return maximization is characterized by two factors, the stochastic complexity and a quantity depending on the parameters of environment. We also examine the sensitivity of stochastic complexity, which is useful in appropriately tuning the parameters of the action selection strategy, and show the bound of the convergence speed of the divergence between the empirical sequence and the best empirical sequence which produces a maximal return.
キーワード(和) 強化学習 / マルコフ決定過程 / 典型系列 / 漸近等分割性 / 確率的複雑さ
キーワード(英) reinforcement learning / Markov decision process / typical sequence / asymptotic equipartition property / stochastic complexity
資料番号 NC2003-202
発行日

研究会情報
研究会 NC
開催期間 2004/3/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 ENG
タイトル(和) 典型系列を使った強化学習の解析
サブタイトル(和)
タイトル(英) An Analysis of Reinforcement Learning Using Typical Sequences
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) マルコフ決定過程 / Markov decision process
キーワード(3)(和/英) 典型系列 / typical sequence
キーワード(4)(和/英) 漸近等分割性 / asymptotic equipartition property
キーワード(5)(和/英) 確率的複雑さ / stochastic complexity
第 1 著者 氏名(和/英) 岩田 一貴 / Kazunori IWATA
第 1 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of Systems Science, Graduate School of Informatics, Kyoto University
第 2 著者 氏名(和/英) 池田 和司 / Kazushi IKEDA
第 2 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of Systems Science, Graduate School of Informatics, Kyoto University
第 3 著者 氏名(和/英) 酒井 英昭 / Hideaki SAKAI
第 3 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of Systems Science, Graduate School of Informatics, Kyoto University
発表年月日 2004/3/12
資料番号 NC2003-202
巻番号(vol) vol.103
号番号(no) 734
ページ範囲 pp.-
ページ数 6
発行日