講演名 | 2005-01-24 強化学習における環境変化の検出法 高橋 哲也, 安達 雅春, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 未知の環境を扱うことができる学習システムとして強化学習がある.強化学習は, 環境に対してエージェントが試行錯誤することにより学習を進めることから, 動的な環境にも対応できることが知られている.動的な環境を扱う場合, 強化学習に内在する固有のハラメータを調整する方法が有効であることが報告されている.環境の変化, または学習の進み具合に応じてハラメータを調節する方法はメタラーニングとして知られており, 優れたハフォーマンスを獲得することが示されている.本報告では, これまでとは異なった方法として, 非線形時系列解析の手法を適用して強化学習における環境変化の検出する方法を提案する.環境の変化を検出することは, ハラメータを調整する上で有効である.具体的には, エージェントの状態遷移によりリカレンスプロットを作成し, リカレンスプロットを定量化することにより環境の変化を検出できることを示す. |
抄録(英) | Reinforcement learning is a kind of learning systems which can deal with an unknown environment. In the reinforcement learning, an agent learns the optimal actions by applying a trial-and-error to an environment. Therefore. it is known that it can apply also to a dynamic environment. It is already reported that the method of adjusting specific parameters in the reinforcement learning is effective, when an agent learns a dynamic environment. The method for adjusting the parameters is known as meta-learning in the reinforcement learning. In this article, we propose a novel method for detecting environmental changes in the reinforcement learning. The proposed method utilizes recurrence plots of a state transition of an agent, and quantify changes of the recurrence plot by a texture analysis. It is shown that the proposed method is effective to detect environmental changes. |
キーワード(和) | 強化学習 / 環境変化 / リカレンスプロット |
キーワード(英) | reinforcement learning / environmental changes / recurrence plots |
資料番号 | NLP2004-95 |
発行日 |
研究会情報 | |
研究会 | NLP |
---|---|
開催期間 | 2005/1/17(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Nonlinear Problems (NLP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 強化学習における環境変化の検出法 |
サブタイトル(和) | |
タイトル(英) | A Detection Method of Environmental Changes for Reinforcement Learning |
サブタイトル(和) | |
キーワード(1)(和/英) | 強化学習 / reinforcement learning |
キーワード(2)(和/英) | 環境変化 / environmental changes |
キーワード(3)(和/英) | リカレンスプロット / recurrence plots |
第 1 著者 氏名(和/英) | 高橋 哲也 / Tetsuya TAKAHASHI |
第 1 著者 所属(和/英) | 東京電機大学大学院工学研究科 / Department of Electronic Engineering, Graduate School of Engineering, Tokyo Denki University / |
第 2 著者 氏名(和/英) | 安達 雅春 / Masaharu ADACHI |
第 2 著者 所属(和/英) | |
発表年月日 | 2005-01-24 |
資料番号 | NLP2004-95 |
巻番号(vol) | vol.104 |
号番号(no) | 583 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |