講演名 2000/1/13
強化学習における環境変化認識法
山本 真也, 山口 文彦, 斎藤 博昭, 中西 正和,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 非マルコフ決定過程(non-MDP)の環境における強化学習の問題点の解決法として, 環境変化時に何らかの処理を行う方法が提案されている.これらの研究において, 環境変化の認識法は確立されていない.本論文では, non-MDPにおける有力な学習エンジンである確率的傾斜法において, 学習中に環境変化を認識する方法を提案する.確率的傾斜法の内部変数Wの変化量を調べることにより環境変化を認識する.提案手法は確率的傾斜法が適用できる問題であれば簡単に内部に組み込むことのでき, 環境変化の認識を行うことができる.シミュレーション実験により従来の手法の半分程度のステップで環境変化を認識できることを示す.
抄録(英) There are some methods that resolve problems of reinforcement learning in non Marokov Decision Process(non-MDP)environment on environment changes. The efficient method of recognizing environmental change has not yet been proposed. This paper proposes a method for recognizing environmental changes on Stochastic Gradient Ascent(SGA)which is a major learning engine in non-MDP environment. It uses the change of an internal variable W of SGA. Our method can be easily put in SGA and it is available for all SGA-applicable problems. We had a simulation to show the efficiency of our method and succeeded to reduce the recognition time to almost half of the conventional method.
キーワード(和) 強化学習 / 確率的傾斜法 / 環境変化
キーワード(英) reinforcement learning / Stochastic Gradient Ascent / environmental change
資料番号 AI99-81
発行日

研究会情報
研究会 AI
開催期間 2000/1/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 強化学習における環境変化認識法
サブタイトル(和)
タイトル(英) A recognization method of environmental change on reinforcement learning
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) 確率的傾斜法 / Stochastic Gradient Ascent
キーワード(3)(和/英) 環境変化 / environmental change
第 1 著者 氏名(和/英) 山本 真也 / Shinya Yamamoto
第 1 著者 所属(和/英) 慶應義塾大学大学院 理工学研究科
Keio University
第 2 著者 氏名(和/英) 山口 文彦 / Fumihiko Yamaguchi
第 2 著者 所属(和/英) 慶應義塾大学大学院 理工学研究科
Keio University
第 3 著者 氏名(和/英) 斎藤 博昭 / Hiroaki Saito
第 3 著者 所属(和/英) 慶應義塾大学大学院 理工学研究科
Keio University
第 4 著者 氏名(和/英) 中西 正和 / Masakazu Nakanishi
第 4 著者 所属(和/英) 慶應義塾大学大学院 理工学研究科
Keio University
発表年月日 2000/1/13
資料番号 AI99-81
巻番号(vol) vol.99
号番号(no) 534
ページ範囲 pp.-
ページ数 6
発行日