講演名 2006-06-16
複数の報酬によって与えられる拘束のもとでの強化学習(「機械学習によるバイオデータマインニング」及び「一般」)
内部 英治, 銅谷 賢治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来の強化学習では,学習の目的は設計者の与えた報酬関数によって規定されていた.それに対し,内発的動機に基づいた強化学習では報酬関数を新奇性,予測誤差,学習の進捗度合いなどの指針に従ってエージェント自身が生成する.この報告では強化学習において内的報酬と外的報酬を扱うための新しいアプローチを提案する.外的報酬は確率方策に制約を与える一方で,内的報酬は学習システムの現在の目的関数を決定する.提案手法は方策勾配に基づいた強化学習法と非線形計画法を組み合わせることで,外的報酬によって与えられる不等式制約の下で内的報酬の平均報酬を最大化する.提案手法を簡単なMDP課題やロボットアームの制御問題に適用し,提案手法の有効性を示す.
抄録(英) The objectives of the standard reinforcement learner are specified by the extrinsic reward function given by human designers. On the other hand, an intrinsically motivated reinforcement learner creates the reward function based on novelty, prediction error, and learning progress. This paper proposes a novel approach to deal with intrinsic and extrinsic rewards for reinforcement learning. The extrinsic rewards give constraints to the stochastic policy while the intrinsic reward determines the current objective function for the learning system. By integrating the policy gradient reinforcement learning algorithms and the techniques of nonlinear programming, our proposed method maximizes the average reward of the intrinsic reward under the inequality constraints induced by the extrinsic rewards. We apply the proposed method into a simple MDP and a control task of a robot arm. Experimental results show the validity of our method.
キーワード(和) 内的・外的報酬 / 非線形計画法 / 方策勾配強化学習
キーワード(英) intrinsic and extrinsic rewards / nonlinear programming / policy gradient reinforcement learning
資料番号 NC2006-22
発行日

研究会情報
研究会 NC
開催期間 2006/6/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 複数の報酬によって与えられる拘束のもとでの強化学習(「機械学習によるバイオデータマインニング」及び「一般」)
サブタイトル(和)
タイトル(英) Reinforcement learning under constraints generated by multiple reward functions
サブタイトル(和)
キーワード(1)(和/英) 内的・外的報酬 / intrinsic and extrinsic rewards
キーワード(2)(和/英) 非線形計画法 / nonlinear programming
キーワード(3)(和/英) 方策勾配強化学習 / policy gradient reinforcement learning
第 1 著者 氏名(和/英) 内部 英治 / Eiji UCHIBE
第 1 著者 所属(和/英) 独立行政法人 沖縄科学技術研究基盤整備機構 沖縄大学院大学先行的研究事業
Okinawa Institute of Science and Technology Promotion Corporation
第 2 著者 氏名(和/英) 銅谷 賢治 / Kenji DOYA
第 2 著者 所属(和/英) 独立行政法人 沖縄科学技術研究基盤整備機構 沖縄大学院大学先行的研究事業:ATR脳情報研究所 計算神経生物学研究室
Okinawa Institute of Science and Technology Promotion Corporation:ATR Computational Neuroscience Laboratories
発表年月日 2006-06-16
資料番号 NC2006-22
巻番号(vol) vol.106
号番号(no) 102
ページ範囲 pp.-
ページ数 6
発行日