お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2005-07-25 15:50
確率的連続行動の強化学習 ~ 直交関数展開による確率密度関数の近似 ~
佐藤仁樹公立はこだて未来大
抄録 (和) 本報告では,連続行動連続状態のMarkov決定過程により記述された環境において,強化学習の一手法であるactor-criticにより,任意の確率密度関数で表現された最適な方策を決定する方法を提案する.連続行動連続状態のactor-criticにおける方策は,行動の確率密度関数に従って行動を確率的に決定することにより実現される.そのため,行動の確率密度関数を学習するには,確率密度関数を近似的に表す関数近似器が必要となる.近似精度と汎化能力に優れた関数近似は,直交関数系を基底として用いることにより実現できる.しかしながら,確率密度関数は正値であるため,実数空間における直交関数系で展開できないという問題がある.本報告では,複素正規直交関数系で展開された波動関数の積で確率密度関数を近似する方法を提案する.これにより,任意の確率密度関数で表現された方策を高い精度で実現できることを示す. 
(英) A function approximation based on an orthonormal wave function expansion in a complex space is derived.
Although a probability density function (PDF) cannot always be expanded in an orthogonal series in a real space because a PDF is a positive real function, the function approximation can approximate an arbitrary PDF with high accuracy.
It is applied to an actor-critic method of reinforcement learning to derive an optimal policy expressed by an arbitrary PDF in a continuous-action continuous-state environment.
A chaos control problem and a PDF approximation problem are solved using the actor-critic method with the function approximation, and it is shown that the function approximation can approximate a PDF well and that the actor-critic method with the function approximation exhibits high performance.
キーワード (和) 強化学習 / アクタークリティック / 連続行動 / 確率密度関数 / 直交関数展開 / 関数近似 / /  
(英) reinforcement learning / actor-critic / continuous action / probability density / orthogonal expansion / approximation / /  
文献情報 信学技報, vol. 105, no. 206, NLP2005-35, pp. 39-44, 2005年7月.
資料番号 NLP2005-35 
発行日 2005-07-18 (NLP) 
ISSN Print edition: ISSN 0913-5685
PDFダウンロード

研究会情報
研究会 NLP  
開催期間 2005-07-25 - 2005-07-25 
開催地(和) 公立はこだて未来大学 
開催地(英) Future Univ.-Hakodate 
テーマ(和) 一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 NLP 
会議コード 2005-07-NLP 
本文の言語 英語(日本語タイトルあり) 
タイトル(和) 確率的連続行動の強化学習 
サブタイトル(和) 直交関数展開による確率密度関数の近似 
タイトル(英) Reinforcement Learning for Continuous Stochastic Actions 
サブタイトル(英) An Approximation of Probability Density Function by an Orthogonal Expansion 
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) アクタークリティック / actor-critic  
キーワード(3)(和/英) 連続行動 / continuous action  
キーワード(4)(和/英) 確率密度関数 / probability density  
キーワード(5)(和/英) 直交関数展開 / orthogonal expansion  
キーワード(6)(和/英) 関数近似 / approximation  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 佐藤 仁樹 / Hideki Satoh / サトウ ヒデキ
第1著者 所属(和/英) 公立はこだて未来大学 (略称: 公立はこだて未来大)
Future University-Hakodate (略称: Future Univ.-Hakodate)
第2著者 氏名(和/英/ヨミ) / /
第2著者 所属(和/英) (略称: )
(略称: )
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2005-07-25 15:50:00 
発表時間 25分 
申込先研究会 NLP 
資料番号 NLP2005-35 
巻番号(vol) vol.105 
号番号(no) no.206 
ページ範囲 pp.39-44 
ページ数
発行日 2005-07-18 (NLP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会