電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2011-06-24 14:40
選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習
小林高彰澁谷長史田中文英森田昌彦筑波大NC2011-15
抄録 (和) 状態空間だけでなく行動空間も連続である場合にQ 学習を適用する際には,価値関数の近似が必要となるが,RBFN のような既存の近似手法を用いると,学習に非常に時間がかかるだけでなく,最適行動を選択するのに必要な計算量が大きく増加してしまう.本報告では,選択的不感化ニューラルネット(SDNN)を近似器として用い,出力層の表現を工夫することによって,行動の連続化に伴う学習効率の低下や計算コストの増加を抑えることを目指す.アクロボットの振り上げ課題に関して数値実験を行ったところ,計算量の増加は抑えられ,また従来のSDNN を用いた場合と比べて,学習効率が向上することがわかった. 
(英) Value function approximation takes an important role for reinforcement learning in continuous state-action space. Conventional methods such as radial basis function networks need considerable amount of computation in its learning as well as optimal action selection. This paper proposes a novel representation of the output layer of selective desensitization neural networks. By using the method, the efficiency of learning is increased and amount of computation is decreased. The effectiveness of proposed method is confirmed through computer simulation experiments using acrobot.
キーワード (和) Q 学習 / 連続状態行動空間 / 関数近似 / 選択的不感化ニューラルネット / / / /  
(英) Q-learning / continuous state-action space / function approximation / selective desensitization neural networks / / / /  
文献情報 信学技報, vol. 111, no. 96, NC2011-15, pp. 119-123, 2011年6月.
資料番号 NC2011-15 
発行日 2011-06-16 (NC) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NC2011-15

研究会情報
研究会 NC IPSJ-BIO  
開催期間 2011-06-23 - 2011-06-24 
開催地(和) 琉球大学 50周年記念館 
開催地(英) 50th Anniversary Memorial Hall, University of the Ryukyus 
テーマ(和) 機械学習によるバイオデータマインニング,一般 
テーマ(英) Machine Learning Approach to Biodata Mining, and General 
講演論文情報の詳細
申込み研究会 NC 
会議コード 2011-06-NC-BIO 
本文の言語 日本語 
タイトル(和) 選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習 
サブタイトル(和)  
タイトル(英) Q-learning in Continuous Action-State Space by Using a Selective Desensitization Neural Network 
サブタイトル(英)  
キーワード(1)(和/英) Q 学習 / Q-learning  
キーワード(2)(和/英) 連続状態行動空間 / continuous state-action space  
キーワード(3)(和/英) 関数近似 / function approximation  
キーワード(4)(和/英) 選択的不感化ニューラルネット / selective desensitization neural networks  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 小林 高彰 / Takaaki Kobayashi / コバヤシ タカアキ
第1著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Tsukuba Univ)
第2著者 氏名(和/英/ヨミ) 澁谷 長史 / Takeshi Shibuya / シブヤ タケシ
第2著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Tsukuba Univ)
第3著者 氏名(和/英/ヨミ) 田中 文英 / Fumihide Tanaka / タナカ フミヒデ
第3著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Tsukuba Univ)
第4著者 氏名(和/英/ヨミ) 森田 昌彦 / Masahiko Morita / モリタ マサヒコ
第4著者 所属(和/英) 筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Tsukuba Univ)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2011-06-24 14:40:00 
発表時間 25 
申込先研究会 NC 
資料番号 IEICE-NC2011-15 
巻番号(vol) IEICE-111 
号番号(no) no.96 
ページ範囲 pp.119-123 
ページ数 IEICE-5 
発行日 IEICE-NC-2011-06-16 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会