講演名 | 2008-11-06 高次元行動空間における強化学習 : 主成分分析による行動空間圧縮(非線形制御,一般) 佐藤 仁樹, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 予備制御器から得られた行動の主成分分析に基づき,高次元行動空間を圧縮する方法を提案する.まず,適当な予備制御器を用いて環境の行動空間における行動を決定する.次に,この行動に対して主成分分析を行う.環境の行動空間は,主成分分析により得られた主軸行列を用いて圧縮される.そこで,強化学習を用いた主制御器により,圧縮された行動空間における行動を決定し,主軸行列を用いて環境の行動空間に写像する.これにより,環境の行動空間より低次元な行動空間で強化学習を実行できる.本手法をダイナミックルーチング問題に適用し,本手法の有効性を示す. |
抄録(英) | Adaptive basis construction, state space compression, and action space compression are used to extend reinforcement learning for controlling an environment with high-dimensional state and action spaces. First, an appropriate pre-controller determines actions in the original action space, and the statistics of the actions are measured. Next, the principal axis matrix of the actions is computed using principal component analysis. The original action space can be compressed using the principal axis matrix. The original state space is also compressed using state space compression based on reward-weighted principal component analysis, and an orthonormal basis is adaptively constructed using adaptive basis construction based on the activity-oriented index allocation. Finally, a main controller based on reinforcement learning determines an action in the compressed action space, and an action in the original action space is computed from the action in the compressed action space using the principal axis matrix. Computer simulation of routing problems showed that the reinforcement learning worked well and that the routing algorithm using it was robust. |
キーワード(和) | 圧縮 / 関数近似 / 多変量解析 / 強化学習 / ロバストルーチング |
キーワード(英) | compression / function approximation / multivariate analysis / reinforcement learning / robust routing |
資料番号 | NLP2008-64 |
発行日 |
研究会情報 | |
研究会 | NLP |
---|---|
開催期間 | 2008/10/30(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Nonlinear Problems (NLP) |
---|---|
本文の言語 | ENG |
タイトル(和) | 高次元行動空間における強化学習 : 主成分分析による行動空間圧縮(非線形制御,一般) |
サブタイトル(和) | |
タイトル(英) | Reinforcement Learning for High-dimensional Action Space : Action Space Compression Based on Principal Component Analysis |
サブタイトル(和) | |
キーワード(1)(和/英) | 圧縮 / compression |
キーワード(2)(和/英) | 関数近似 / function approximation |
キーワード(3)(和/英) | 多変量解析 / multivariate analysis |
キーワード(4)(和/英) | 強化学習 / reinforcement learning |
キーワード(5)(和/英) | ロバストルーチング / robust routing |
第 1 著者 氏名(和/英) | 佐藤 仁樹 / Hideki SATOH |
第 1 著者 所属(和/英) | 公立はこだて未来大学システム情報科学部 School of Systems Information Science, Future University-Hakodate |
発表年月日 | 2008-11-06 |
資料番号 | NLP2008-64 |
巻番号(vol) | vol.108 |
号番号(no) | 276 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |