講演名 2001/6/22
強化学習におけるexplorationとexploitationの制御
吉田 和子, 石井 信,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習とは、試行錯誤を通じて環境に適応する学習制御の枠組であり、エージェントは環境との相互作用によって学習を行なう。モデル同定強化学習法は、環境のモデルに基づいて価値関数を計算する手法であり、複雑な環境を扱うのに適している。本研究では、環境のモデル、すなわち状態遷移確率の近似にベイズ推定を用いる手法を提案する。強化学習における重要なトピックに、より良いポリシーを得るために行動を試すexploration(探索)と、より効率的に報酬を得るためのexploitation(搾取)のバランスの問題がある。本研究では、この2つの相反する制御を効果的に行なうために、エージェントの行動選択に逆温度メタパラメータの制御機構、すなわちメタ制御と、explorationボーナスを導入する。本手法を2次元迷路探索問題に適用し、逆温度の制御を行なわない手法と比較した。実験の結果、我々の手法は環境の変動にうまく適応できることが分かった。
抄録(英) Reinforcement learning (RL) is a learning framework based on trial-and-error, in which an agent learns by interacting with the environment. Model-based RL calculates the value function by modeling the environment; it is suitable for complicated environments. In this report, we propose a Bayes approximation method for the environmental model. One of the major issues in RL is the balance between exploration for searching for better control, and exploitation for obtaining the large reward. In order to control this contradictory balance, we introduce a control mechanism for the inverse temperature and an exploration bonus term, to the action selection. When our learning method is applied to a two-dimensional maze task, experimental results show taht the learning agent is able to adapt well to changes in the environment.
キーワード(和) モデル同定強化学習 / ベイズ推定 / exploration-exploitation問題 / 逆温度メタパラメータ / explorationボーナス
キーワード(英) Model-based reinforcement learning / Bayes inference / exploration-exploitation problem / inverse temperature / exploration bonus
資料番号 NC2001-28
発行日

研究会情報
研究会 NC
開催期間 2001/6/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 強化学習におけるexplorationとexploitationの制御
サブタイトル(和)
タイトル(英) Control of exploration and exploitation in reinforcement learning
サブタイトル(和)
キーワード(1)(和/英) モデル同定強化学習 / Model-based reinforcement learning
キーワード(2)(和/英) ベイズ推定 / Bayes inference
キーワード(3)(和/英) exploration-exploitation問題 / exploration-exploitation problem
キーワード(4)(和/英) 逆温度メタパラメータ / inverse temperature
キーワード(5)(和/英) explorationボーナス / exploration bonus
第 1 著者 氏名(和/英) 吉田 和子 / Wako Yoshida
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学:科学技術振興事業団CREST銅谷プロジェクト
Nara Institute of Science and Technology:CREST Doya Project, Japan Science and Technology Corporation
第 2 著者 氏名(和/英) 石井 信 / Shin Ishii
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学:科学技術振興事業団CREST銅谷プロジェクト
Nara Institute of Science and Technology:CREST Doya Project, Japan Science and Technology Corporation
発表年月日 2001/6/22
資料番号 NC2001-28
巻番号(vol) vol.101
号番号(no) 154
ページ範囲 pp.-
ページ数 8
発行日