講演名 2003/7/22
強化学習における複雑さを評価するためのLempel-Ziv符号化(<特集>統計的学習理論及び一般)
岩田 一貴, 池田 和司, 酒井 英昭,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習の確率過程を統一的に扱うために,経験系列をマルコフ情報源からの出力として記述する.この記述を基に学習過程におけるドメインの大きさと確率的構造の複雑さの影響の関係を情報理論的に解析する.また,確率構造をなるべく早く同定するための1つの指針を示す.計算機実験では,初期段階の学習の振る舞いはドメインの大きさに影響されるが,学習が進むにつれて確率構造の複雑さに支配されることを確認した.
抄録(英) We describe Markov decision processes as the representation of Markov information sources to uniformly deal with reinforcement learning processes. We then consider an information theoretic analysis of the effects of the domain size and the complexity on the learning process and give a guide of strategy for recognizing the probabilistic structure of Markov decision processes as early as possible. In experimental results, we confirm that early stages of the learning process are mainly characterized by the domain size and as the number of steps increases it depends heavily on the stochastic complexity of Markov decision processes.
キーワード(和) 強化学習 / マルコフ決定過程 / レンペル・ジブ符号化 / ドメインの大きさ / 確率的複雑さ
キーワード(英) Reinforcement Learning / Markov Decision Process / Lempei-Ziv Coding / Domain Size / Stochastic Complexity
資料番号 NC2003-43
発行日

研究会情報
研究会 NC
開催期間 2003/7/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 ENG
タイトル(和) 強化学習における複雑さを評価するためのLempel-Ziv符号化(<特集>統計的学習理論及び一般)
サブタイトル(和)
タイトル(英) Lempel-Ziv Coding for Measuring Complexity in Reinforcement Learning
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement Learning
キーワード(2)(和/英) マルコフ決定過程 / Markov Decision Process
キーワード(3)(和/英) レンペル・ジブ符号化 / Lempei-Ziv Coding
キーワード(4)(和/英) ドメインの大きさ / Domain Size
キーワード(5)(和/英) 確率的複雑さ / Stochastic Complexity
第 1 著者 氏名(和/英) 岩田 一貴 / Kazunori IWATA
第 1 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of System Science, Graduate School of Informatics, Kyoto University
第 2 著者 氏名(和/英) 池田 和司 / Kazushi IKEDA
第 2 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of System Science, Graduate School of Informatics, Kyoto University
第 3 著者 氏名(和/英) 酒井 英昭 / Hideaki SAKAI
第 3 著者 所属(和/英) 京都大学大学院情報学研究科システム科学専攻
Department of System Science, Graduate School of Informatics, Kyoto University
発表年月日 2003/7/22
資料番号 NC2003-43
巻番号(vol) vol.103
号番号(no) 228
ページ範囲 pp.-
ページ数 6
発行日