講演名 1997/5/23
強化学習を用いた球技動作の予測と制御
落合 真吾, 佐野 雅己, 沢田 康次,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 神経回路モデルにより、動的な予測・学習・制御を行わせる。簡単な例として、ボールのシユート、壁打ちという球技動作を取り上げる。これらの問題においては一般に正確な教師信号は与えられない。ボールのシュートの場合には、入った場合にのみ「入った」という情報が与えられ、どのくらいゴールに近いかというような情報は与えられない。また、運動の制御はリアルタイムに行われるため、高速な学習アルゴリズムが要求される。本報告では、RBFを用いた予測と強化学習(TD学習)を組み合わせてモデルを構成し、計算機シミュレーシヨンを行った。
抄録(英) An interesting question about learning is how an embedded agent call improve performance while acting in complex dynamical environment. Supervised learning is not feasible because precise knowledge of dynamical environment and correct response of agent are not available a priori. As a case study of control problem we choose two types of ball playing games ; shooting in basketball and squash tennis. In both cases, robust and efficient algorithm is needed. We applied the stochastic reinforcement learning method with temporal difference (TD) algorithm for controlling and prediction. The result was successful.
キーワード(和) 確率的強化学習 / TD学習 / RBF
キーワード(英) stochastic reinforcement learning / TD learning / RBF
資料番号 NC97-10
発行日

研究会情報
研究会 NC
開催期間 1997/5/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 強化学習を用いた球技動作の予測と制御
サブタイトル(和)
タイトル(英) Reinforcement learning algorithm for prediction and control of ball games
サブタイトル(和)
キーワード(1)(和/英) 確率的強化学習 / stochastic reinforcement learning
キーワード(2)(和/英) TD学習 / TD learning
キーワード(3)(和/英) RBF / RBF
第 1 著者 氏名(和/英) 落合 真吾 / Shingo Ochiai
第 1 著者 所属(和/英) 東北大学大学院情報科学研究科
Graduate School of Information Sciences, TOHOKU University
第 2 著者 氏名(和/英) 佐野 雅己 / Masaki Sano
第 2 著者 所属(和/英) 東北大学大学院情報科学研究科
Graduate School of Information Sciences, TOHOKU University
第 3 著者 氏名(和/英) 沢田 康次 / Yasuji Sawada
第 3 著者 所属(和/英) 東北大学大学院情報科学研究科
Graduate School of Information Sciences, TOHOKU University
発表年月日 1997/5/23
資料番号 NC97-10
巻番号(vol) vol.97
号番号(no) 69
ページ範囲 pp.-
ページ数 7
発行日