講演名 2008-11-06
高次元行動空間における強化学習 : 主成分分析による行動空間圧縮(非線形制御,一般)
佐藤 仁樹,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 予備制御器から得られた行動の主成分分析に基づき,高次元行動空間を圧縮する方法を提案する.まず,適当な予備制御器を用いて環境の行動空間における行動を決定する.次に,この行動に対して主成分分析を行う.環境の行動空間は,主成分分析により得られた主軸行列を用いて圧縮される.そこで,強化学習を用いた主制御器により,圧縮された行動空間における行動を決定し,主軸行列を用いて環境の行動空間に写像する.これにより,環境の行動空間より低次元な行動空間で強化学習を実行できる.本手法をダイナミックルーチング問題に適用し,本手法の有効性を示す.
抄録(英) Adaptive basis construction, state space compression, and action space compression are used to extend reinforcement learning for controlling an environment with high-dimensional state and action spaces. First, an appropriate pre-controller determines actions in the original action space, and the statistics of the actions are measured. Next, the principal axis matrix of the actions is computed using principal component analysis. The original action space can be compressed using the principal axis matrix. The original state space is also compressed using state space compression based on reward-weighted principal component analysis, and an orthonormal basis is adaptively constructed using adaptive basis construction based on the activity-oriented index allocation. Finally, a main controller based on reinforcement learning determines an action in the compressed action space, and an action in the original action space is computed from the action in the compressed action space using the principal axis matrix. Computer simulation of routing problems showed that the reinforcement learning worked well and that the routing algorithm using it was robust.
キーワード(和) 圧縮 / 関数近似 / 多変量解析 / 強化学習 / ロバストルーチング
キーワード(英) compression / function approximation / multivariate analysis / reinforcement learning / robust routing
資料番号 NLP2008-64
発行日

研究会情報
研究会 NLP
開催期間 2008/10/30(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Nonlinear Problems (NLP)
本文の言語 ENG
タイトル(和) 高次元行動空間における強化学習 : 主成分分析による行動空間圧縮(非線形制御,一般)
サブタイトル(和)
タイトル(英) Reinforcement Learning for High-dimensional Action Space : Action Space Compression Based on Principal Component Analysis
サブタイトル(和)
キーワード(1)(和/英) 圧縮 / compression
キーワード(2)(和/英) 関数近似 / function approximation
キーワード(3)(和/英) 多変量解析 / multivariate analysis
キーワード(4)(和/英) 強化学習 / reinforcement learning
キーワード(5)(和/英) ロバストルーチング / robust routing
第 1 著者 氏名(和/英) 佐藤 仁樹 / Hideki SATOH
第 1 著者 所属(和/英) 公立はこだて未来大学システム情報科学部
School of Systems Information Science, Future University-Hakodate
発表年月日 2008-11-06
資料番号 NLP2008-64
巻番号(vol) vol.108
号番号(no) 276
ページ範囲 pp.-
ページ数 6
発行日