電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2011-11-09 15:45
状態遷移の推定に基づく能動的価値関数推定法
幸島匡宏東工大
技報オンラインサービス実施中
抄録 (和) 強化学習において価値関数の精度の良い推定は重要である. 本研究では, 状態遷移確率の推定の後に, 価値関数の推定を行う手法における能動学習法を提案する.提案手法では, データ採取点は推定価値関数と真の価値関数の漸近平均二乗誤差を最小にする最適データ比率を基に決定される. 数値実験により, 導出した漸近平均二乗誤差値の検証と提案手法の有効性の確認を行う. 
(英) It is considered to be a great importance in reinforcement learning to estimate value function precisely. In this study, the author proposes active learning algorithm for model based value function estimation, which computes value function using estimated transition probability. Its data sampling scheme is based on optimal ratio of the number of data to minimize asymptotic squared error of value function.
Experimental results show the effectiveness of proposed algorithm.
キーワード (和) 強化学習 / マルコフ決定過程 / 状態遷移確率推定 / モデルベースアルゴリズム / 能動学習 / 漸近理論 / /  
(英) reinforcement learning / markov decision processes / transition probability estimation / model based algorithm / active learning / asymptotic theory / /  
文献情報 信学技報, vol. 111, no. 275, IBISML2011-51, pp. 61-66, 2011年11月.
資料番号 IBISML2011-51 
発行日 2011-11-02 (IBISML) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380

研究会情報
研究会 IBISML  
開催期間 2011-11-09 - 2011-11-11 
開催地(和) 奈良女子大学 
開催地(英) Nara Womens Univ. 
テーマ(和) 第14回情報論的学習理論ワークショップ 
テーマ(英) The 14th IBIS workshop 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2011-11-IBISML 
本文の言語 日本語 
タイトル(和) 状態遷移の推定に基づく能動的価値関数推定法 
サブタイトル(和)  
タイトル(英) Active Value Function Estimation Based On Transition Probability Estimation 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) マルコフ決定過程 / markov decision processes  
キーワード(3)(和/英) 状態遷移確率推定 / transition probability estimation  
キーワード(4)(和/英) モデルベースアルゴリズム / model based algorithm  
キーワード(5)(和/英) 能動学習 / active learning  
キーワード(6)(和/英) 漸近理論 / asymptotic theory  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 幸島 匡宏 / Masahiro Kohjima / コウジマ マサヒロ
第1著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute Of Technology (略称: Tokyo Tech)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2011-11-09 15:45:00 
発表時間 180 
申込先研究会 IBISML 
資料番号 IEICE-IBISML2011-51 
巻番号(vol) IEICE-111 
号番号(no) no.275 
ページ範囲 pp.61-66 
ページ数 IEICE-6 
発行日 IEICE-IBISML-2011-11-02 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会