お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2010-03-11 09:50
確率的逐次決定過程の分類 ~ 情報スペクトル的アプローチ ~
岩田一貴広島市大NC2009-144
抄録 (和) マルコフ決定過程は,強化学習において,エージェントと環境の相互作用の枠
組みを表現するための最も代表的な確率的逐次決定過程である.
マルコフ決定過程は定常エルゴードであることを仮定されることが多いが,強
化学習の応用で現れる大部分の確率的逐次決定過程はマルコフ性,定常性,エ
ルゴード性を満たすとは限らない.
本論文では,定常エルゴードマルコフ決定過程よりも一般的な確率的逐次決定
過程における収益最大化において,ある情報スペクトル的性質が重要な役割を
果たすことを示す.
また,収益最大化のための必要条件を使って確率的逐次決定過程を分類し,必
要条件を満たす確率的逐次決定過程における収益最大化の例をいくつか示す. 
(英) Markov decision processes are the most popular stochastic sequential
decision processes in reinforcement learning for representing the
framework of interactions between an agent and an environment.
We frequently regard the Markov decision process as a stationary and
ergodic process, but most stochastic sequential decision processes
arising in reinforcement learning are in fact, not necessarily
Markovian, stationary, or ergodic.
In this paper, we show that an information-spectrum property plays an
important role in return maximization in more general processes than
stationary and ergodic Markov decision processes.
We also present a class of stochastic sequential decision processes
with the necessary condition for return maximization.
We provide several examples of best sequences in terms of return
maximization in the class.
キーワード (和) 確率的逐次決定過程 / 強化学習 / 情報スペクトル / / / / /  
(英) stochastic sequential decision process / reinforcement learning / information spectrum / / / / /  
文献情報 信学技報, vol. 109, no. 461, NC2009-144, pp. 333-338, 2010年3月.
資料番号 NC2009-144 
発行日 2010-03-02 (NC) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2009-144

研究会情報
研究会 NC MBE  
開催期間 2010-03-09 - 2010-03-11 
開催地(和) 玉川大学 
開催地(英) Tamagawa University 
テーマ(和) 一般 
テーマ(英) General 
講演論文情報の詳細
申込み研究会 NC 
会議コード 2010-03-NC-MBE 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 確率的逐次決定過程の分類 
サブタイトル(和) 情報スペクトル的アプローチ 
タイトル(英) Classifying Stochastic Sequential Decision Processes 
サブタイトル(英) An Information-Spectrum Approach 
キーワード(1)(和/英) 確率的逐次決定過程 / stochastic sequential decision process  
キーワード(2)(和/英) 強化学習 / reinforcement learning  
キーワード(3)(和/英) 情報スペクトル / information spectrum  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 岩田 一貴 / Kazunori Iwata / イワタ カズノリ
第1著者 所属(和/英) 広島市立大学 (略称: 広島市大)
Hiroshima City University (略称: Hiroshima City Univ.)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2010-03-11 09:50:00 
発表時間 25分 
申込先研究会 NC 
資料番号 NC2009-144 
巻番号(vol) vol.109 
号番号(no) no.461 
ページ範囲 pp.333-338 
ページ数
発行日 2010-03-02 (NC) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会