講演名 2012-06-28
2種類のTD誤差を用いた脳における状態価値の計算モデル(一般,機械学習によるバイオデータマインニング,一般)
篠塚 正成, 森田 昌彦,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Schultzらにより,中脳ドーパミンニューロンが強化学習におけるTD誤差に相当する活動を示すことが報告されて以来,大脳基底核は強化学習に大きく関与しているという見方が有力であるが,従来の状態価値の計算モデルにはいくつかの疑問点がある.本研究では,予測および実測という2種類のTD誤差を用いることによって,不自然なバッファ回路などを必要としない状態価値の計算モデルを構成した.簡単な報酬予測課題に関して数値実験を行ったところ,予測TD誤差が行動や報酬の履歴に依存して短期的に変動し,それに追従する形で実測TD誤差がなだらかに変動することによって,長期的に見た状態価値が獲得可能であることが示された.本モデルは,関係する脳領域の構造や生理学的知見とかなりよく整合し,脳内に複数の異なるドーパミン系が存在する理由を説明することができる.
抄録(英) The basal ganglia has been considered to be deeply involved in reinforcement learning since Schultz et al. reported that the midbrain dopamine neurons show activities in accordance with temporal differences (TD). However, existing TD-learning models of the basal ganglia seem to assume some implausible neural mechanisms. We constructed a more plausible model for state value computation by introducing two kinds of TD signals: prospective and actual. Computer simulations on a simple reward prediction task showed that the prospective TD signal varies frequently depending on the short-term history of actions and rewards, and that longer-term state values can be acquired based on the actual TD signal which follows the prospective one with a smaller variation. This model leads to the hypothesis that these two TD signals may be encoded by different dopamine systems in the midbrain.
キーワード(和) 強化学習TD誤差 / 状態価値観数 / 大脳基底核 / ドーパミンニューロン
キーワード(英) reinforcement learning / temporal difference / state value function / basal ganglia / dopamine neurons
資料番号 NC2012-5
発行日

研究会情報
研究会 NC
開催期間 2012/6/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 2種類のTD誤差を用いた脳における状態価値の計算モデル(一般,機械学習によるバイオデータマインニング,一般)
サブタイトル(和)
タイトル(英) A Computational Model for State Value Estimation in the Brain Using Two Kinds of Temporal Differences
サブタイトル(和)
キーワード(1)(和/英) 強化学習TD誤差 / reinforcement learning
キーワード(2)(和/英) 状態価値観数 / temporal difference
キーワード(3)(和/英) 大脳基底核 / state value function
キーワード(4)(和/英) ドーパミンニューロン / basal ganglia
第 1 著者 氏名(和/英) 篠塚 正成 / Masanari SHINOTSUKA
第 1 著者 所属(和/英) 筑波大学大学院システム情報工学研究科
Graduate School of Systems and Information Engineering, University of Tsukuba
第 2 著者 氏名(和/英) 森田 昌彦 / Masahiko MORITA
第 2 著者 所属(和/英) 筑波大学大学院システム情報工学研究科
Graduate School of Systems and Information Engineering, University of Tsukuba
発表年月日 2012-06-28
資料番号 NC2012-5
巻番号(vol) vol.112
号番号(no) 108
ページ範囲 pp.-
ページ数 6
発行日