運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)

金城 健; 内部 英治; 吉本 潤一郎; 銅谷 賢治

講演名	2012-06-28 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般) 金城健, 内部英治, 吉本潤一郎, 銅谷賢治,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	Todorov[1]はコスト関数の形式に制限を加え変数変換を行うことでBellman方程式を厳密に線形化しする手法を提案した。これによりBellman方程式は固有値問題に帰着され解析的に価値関数と最適制御則を導出することが可能となった。連続状態空間において線形化Bellman方程式は固有関数を解く問題となるが、既にTodorovにより関数近似を用いることで固有関数を導出する手法が示されている[2]。この連続状態空間での非線形最適制御則は、ロボット制御の応用に適したものであるが、システムのダイナミクスが既知と仮定しており、実機においてそれが既知であることは稀である。またポールの振り上げ課題などの低次元の場合についてのみ検証されていた。本研究では、観測と行動の系列から運動視覚ダイナミクスを推定し、得られたダイナミクスにTodorovの手法を適用して最適制御則を獲得する方法を提案し、高次元の状態行動空間をもつ実機に対して適用を行った。タスクとして移動ロボットの視覚にもとづくナビゲーション課題を用いた実験を通して、指数価値関数にもとづく制御において適切な行動が獲得できた。またLQRと同一問題設定のもとでは、価値関数による制御はLQR以上の性能を得られた。
抄録(英)	Recently, Todorov [1] proposed a technique to strictly linearize a Bellman equation under a instruction on the cost function by exponential transformation of the variable. This enables deriving the value function and the optimal control law analytically, because the Bellman equation became an eigenvalue problem. In continuous state space case, a linearized bellman equation is required to solve an eigenfunction problem, Todorov has already shown a technique for deriving the eigenfunction by using the functional approximation [2]. Although these techniques are attractive for application to real system like robot, They assume that the dynamics of the system is already-known. In a real system, it is rare that they are already-known. It investigate only low dimensionality like swing-up balancing task. In this paper, We proposes a method for deriving an optimal control law from the estimated motor-visual dynamics from the sequence of experienced states and action and apply this method to real system with high state-actions space. In a visual guide task, Robot learn appropriate behavior and obtain better controller than LQR when the problem setting is equivalent to LQR.
キーワード(和)	指数価値関数 / システム同定 / 最適制御
キーワード(英)	desirability function / system identification / optimal control
資料番号	NC2012-4
発行日

研究会情報
研究会	NC
開催期間	2012/6/21(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Neurocomputing (NC)
本文の言語	JPN
タイトル（和）	運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)
サブタイトル（和）
タイトル（英）	Learning Motor-visual Dynamics and Solving Linearlized Bellman Equation for Robot Control
サブタイトル（和）
キーワード(1)（和/英）	指数価値関数 / desirability function
キーワード(2)（和/英）	システム同定 / system identification
キーワード(3)（和/英）	最適制御 / optimal control
第 1 著者氏名（和/英）	金城健 / Ken KINJO
第 1 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構神経計算学ユニット Graduate school of Informatin, Nara Institute of Science and Technology:Neural Computation Unit, Okinawa Institute of Science and Technology
第 2 著者氏名（和/英）	内部英治 / Eiji UCHIBE
第 2 著者所属（和/英）	沖縄科学技術研究基盤整備機構神経計算学ユニット Neural Computation Unit, Okinawa Institute of Science and Technology
第 3 著者氏名（和/英）	吉本潤一郎 / Junichiro YOSHIMOTO
第 3 著者所属（和/英）	沖縄科学技術研究基盤整備機構神経計算学ユニット:奈良先端科学技術大学院大学情報科学研究科 Neural Computation Unit, Okinawa Institute of Science and Technology:Graduate school of Informatin, Nara Institute of Science and Technology
第 4 著者氏名（和/英）	銅谷賢治 / Kenji DOYA
第 4 著者所属（和/英）	沖縄科学技術研究基盤整備機構神経計算学ユニット:奈良先端科学技術大学院大学情報科学研究科 Neural Computation Unit, Okinawa Institute of Science and Technology:Graduate school of Informatin, Nara Institute of Science and Technology
発表年月日	2012-06-28
資料番号	NC2012-4
巻番号（vol）	vol.112
号番号（no）	108
ページ範囲	pp.-
ページ数	6
発行日