講演名 2007-03-14
近傍成分分析による行動指向的状態表現の獲得
大塚 誠, 内部 英治, 銅谷 賢治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ロボット等を用いて実環境で強化学習を行う場合,高次元のセンサ情報を扱う必要があり,単純な強化学習手法の適用では目的の制御則を獲得するのに非現実的な学習時間を要することが指摘されている.そのため,従来は学習器の設計者が予め行動選択に直接関わる重要な特徴を絞り込むことでこの問題を回避していた.しかしながら,この方法ではタスクに関わる重要な特徴が変化するなどの環境の変化に対して柔軟に適応することができない.本報告では,実例に基づく強化学習の学習結果を予測最適行動ラベルとして近傍成分分析に渡すことにより,強化学習を行う低次元空間を遂次的に自動構築する手法を提案する.シミュレーション実験で異なる次元圧縮手法を比較し,提案手法は効率的な強化学習を行うための状態表現を自動的に構築できることを示す.
抄録(英) The performance of reinforcement learning severely depends on its underlying state representation; therefore, the automatic acquisition of a task-dependent state space is a major topic in the field of reinforcement learirig. This research proposes a novel way to construct an efficient and task-dependent state representation by integrating two methods: the neighbourhood component analysis (NCA) and the instance-based reinforcement learning (IBRL). In three different simulation experiments, the performance of different dimensionality reduction techniques are compared with the proposed method. The results of the experiments show that the proposed method finds important features and constructs an effective task-dependent state representation automatically.
キーワード(和) 近傍成分分析 / 強化学習 / 確率最近傍法 / 距離計量 / 状態表現 / 次元圧縮
キーワード(英) neighbourhood component analysis / reinforcement learning / stochastic nearest neighbour / distance metric / state representation / dimensionality reduction
資料番号 NC2006-149
発行日

研究会情報
研究会 NC
開催期間 2007/3/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 近傍成分分析による行動指向的状態表現の獲得
サブタイトル(和)
タイトル(英) Action-Oriented State Coding by Neighbourhood Component Analysis
サブタイトル(和)
キーワード(1)(和/英) 近傍成分分析 / neighbourhood component analysis
キーワード(2)(和/英) 強化学習 / reinforcement learning
キーワード(3)(和/英) 確率最近傍法 / stochastic nearest neighbour
キーワード(4)(和/英) 距離計量 / distance metric
キーワード(5)(和/英) 状態表現 / state representation
キーワード(6)(和/英) 次元圧縮 / dimensionality reduction
第 1 著者 氏名(和/英) 大塚 誠 / Makoto OTSUKA
第 1 著者 所属(和/英) 沖縄大学院大学先行研究プロジェクト:奈良先端科学技術大学院大学
Initial Research Project, Okinawa Institute of Science and Technology:Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 内部 英治 / Eiji UCHIBE
第 2 著者 所属(和/英) 沖縄大学院大学先行研究プロジェクト
Initial Research Project, Okinawa Institute of Science and Technology
第 3 著者 氏名(和/英) 銅谷 賢治 / Kenji DOYA
第 3 著者 所属(和/英) 沖縄大学院大学先行研究プロジェクト:奈良先端科学技術大学院大学
Initial Research Project, Okinawa Institute of Science and Technology:Nara Institute of Science and Technology
発表年月日 2007-03-14
資料番号 NC2006-149
巻番号(vol) vol.106
号番号(no) 588
ページ範囲 pp.-
ページ数 6
発行日