講演名 2003/1/27
予測ベース強化学習に基づくゲーム学習の加速 : プランニング行動の発生に向けて(<オーガナイズドセッション>心理実験データに基づく視覚過程の分析とモデル化)
大東 優, 大森 隆司, 森川 幸治, 岡 夏樹,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 人間がある問題を解決する際に、現在直面している状態のみを考慮して、取るべき行動を決定しているとは考えにくい。人間は、様々な過去の経験を利用することで、未来の状態を予測し、その予測状態と現在状態に基づき行動決定をしているように思われる。この戦略は、従来の伝統的な強化学習によるState→Actionモデルでは、説明することが困難である。そこで本研究では、予測に基づく強化学習方式(PRLmodel)を提案する.PRLmodelは、状態予測モジュールと手段記憶モジュールを、強化学習の一種であるactor-critic手法に追加したものである。このシステムは、状態予測モジュールを用いることで得られる予測状態を、強化学習のcriticが持つ価値テーブルに基づいて評価し、行動決定に使用する予測ボイントを決定する。そして、その予測状態に基づき、手段記憶モジュールを用いて行動を決定する。私たちは、提案モデルを評価するために、単純なゲームを用いて、シミュレーションを行った。
抄録(英) When humans solve a problem, it is unlikely that they use only the current state of the problem to decide upon an action. It is difficult to explain the human action decision strategy by means of the state to action model, which is the major method used in conventional reinforcement learning (RL) . On the contrary, humans appear to predict a future state through the use of past experience and decide upon an action based on that predicted state. In this paper, we propose a prediction-based RL model (PRLmodel) . In the PRL model, a state prediction module and an action memory module are added to an actor-critic type RL, and the system predicts and evaluates a future state from a current one based on an expected value table. Then, the system chooses a point of action decision in order to perform the appropriate action. To evaluate the proposed model, we perform a computer simulation using a simple ping pong game.
キーワード(和) モデルベース強化学習 / プランニング / 予測
キーワード(英) model based Reinforcement Learning / planning / prediction
資料番号 NC2002-113
発行日

研究会情報
研究会 NC
開催期間 2003/1/27(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 予測ベース強化学習に基づくゲーム学習の加速 : プランニング行動の発生に向けて(<オーガナイズドセッション>心理実験データに基づく視覚過程の分析とモデル化)
サブタイトル(和)
タイトル(英) Acceleration of Game Learning with Prediction-based Reinforcement Learning : Toward the emergence of planning behavior
サブタイトル(和)
キーワード(1)(和/英) モデルベース強化学習 / model based Reinforcement Learning
キーワード(2)(和/英) プランニング / planning
キーワード(3)(和/英) 予測 / prediction
第 1 著者 氏名(和/英) 大東 優 / Yu OHIGASHI
第 1 著者 所属(和/英) 北海道大学大学院工学部
Graduate School of Engineering, Hokkaido Univ.
第 2 著者 氏名(和/英) 大森 隆司 / Takashi OMORI
第 2 著者 所属(和/英) 北海道大学大学院工学部
Graduate School of Engineering, Hokkaido Univ.
第 3 著者 氏名(和/英) 森川 幸治 / Koji MORIKAWA
第 3 著者 所属(和/英) 松下電器産業株式会社先端技術研究所ヒューマンウェア研究所
Humanware Technology Research Laboratory, Matsushita Electric Industrial Co., Ltd.
第 4 著者 氏名(和/英) 岡 夏樹 / Natsuki OKA
第 4 著者 所属(和/英) 松下電器産業株式会社先端技術研究所ヒューマンウェア研究所
Humanware Technology Research Laboratory, Matsushita Electric Industrial Co., Ltd.
発表年月日 2003/1/27
資料番号 NC2002-113
巻番号(vol) vol.102
号番号(no) 627
ページ範囲 pp.-
ページ数 6
発行日