講演抄録/キーワード |
講演名 |
2009-01-19 10:55
冗長次元を含む状態空間における選択的不感化ニューラルネットを用いた強化学習 ○新保智之・山根 健・森田昌彦(筑波大) NC2008-83 |
抄録 |
(和) |
従来,強化学習における価値関数の近似には局所的近似手法が主に用いられてきたが,現実世界のように冗長性が大きく高次元の状態空間の場合,この方法は学習時間や計算コストがかかりすぎて使えない.本研究では,選択的不感化法を適用した層状ニューラルネットを関数近似器として用いることによってこの問題の解決を目指す.アクロボットの振り上げ課題に関してシミュレーション実験を行ったところ,提案手法は学習効率が高いだけでなく,冗長変数を加えても効率がほとんど低下せず,計算コストの爆発的増加も生じないことがわかった. |
(英) |
Reinforcement learning has a problem that it requires a long time particularly when the state space is high dimensional with redundant dimensions. Here we report that a function approximator comprised of the selective desensitization neural network (SDNN) improves in the efficiency of reinforcement learning in the acrobot swing-up task, avoiding the explosive increase in learning time and computational costs when redundant variables are added. |
キーワード |
(和) |
強化学習 / 関数近似器 / 選択的不感化 / 冗長次元 / アクロボット / / / |
(英) |
Reinforcement Learning / Function Approximator / Selective Desensitization / Redundant Dimensions / Acrobot / / / |
文献情報 |
信学技報, vol. 108, no. 383, NC2008-83, pp. 7-12, 2009年1月. |
資料番号 |
NC2008-83 |
発行日 |
2009-01-12 (NC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NC2008-83 |
研究会情報 |
研究会 |
NC |
開催期間 |
2009-01-19 - 2009-01-20 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
神経ダイナミクス,一般 |
テーマ(英) |
Neural Dynamics, etc. |
講演論文情報の詳細 |
申込み研究会 |
NC |
会議コード |
2009-01-NC |
本文の言語 |
日本語 |
タイトル(和) |
冗長次元を含む状態空間における選択的不感化ニューラルネットを用いた強化学習 |
サブタイトル(和) |
|
タイトル(英) |
Reinforcement Learning Using Selective Desensitization Neural Networks in the State Space with Redundant dimensions |
サブタイトル(英) |
|
キーワード(1)(和/英) |
強化学習 / Reinforcement Learning |
キーワード(2)(和/英) |
関数近似器 / Function Approximator |
キーワード(3)(和/英) |
選択的不感化 / Selective Desensitization |
キーワード(4)(和/英) |
冗長次元 / Redundant Dimensions |
キーワード(5)(和/英) |
アクロボット / Acrobot |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
新保 智之 / Tomoyuki Shimbo / シンボ トモユキ |
第1著者 所属(和/英) |
筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Univ. of Tsukuba) |
第2著者 氏名(和/英/ヨミ) |
山根 健 / Ken Yamane / ヤマネ ケン |
第2著者 所属(和/英) |
筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Univ. of Tsukuba) |
第3著者 氏名(和/英/ヨミ) |
森田 昌彦 / Masahiko Morita / モリタ マサヒコ |
第3著者 所属(和/英) |
筑波大学 (略称: 筑波大)
University of Tsukuba (略称: Univ. of Tsukuba) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2009-01-19 10:55:00 |
発表時間 |
25分 |
申込先研究会 |
NC |
資料番号 |
NC2008-83 |
巻番号(vol) |
vol.108 |
号番号(no) |
no.383 |
ページ範囲 |
pp.7-12 |
ページ数 |
6 |
発行日 |
2009-01-12 (NC) |