講演名 2003/10/17
[招待論文]観測軌道を基にした運動の最適化 : 起立運動,歩行運動への適用(PRMU&NCテーマセッション(3) : 模倣学習)(認識と学習,模倣学習)
森本 淳, 銅谷 賢治 /,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 運動を模倣によって獲得する場合,教師の運動軌道を観測するだけで目的の運動を実現することは容易ではない.なぜなら,観測される運動軌道のみから教師の行動則や正確な出力トルク等を推定することは困難であり,かつ教師と学習者のダイナミクスは一般に異なるからである.このような場合,運動の目的が達成できるように,学習者のダイナミクスに合った運動を,観測した軌道を基に最適化することが必要となる.本研究では,最適化の手法として,階層型強化学習法と微分動的計画法を用いることを考える.具体例として,階層型強化学習法を用いて3リンク2関節ロボットの起立運動を模倣により獲得することを考える.ここでは,観測軌道を用いることで,短時間で起立運動の学習が行えることを示す.一方,微分動的計画法を用いた具体例として,5リンクロボットの2足歩行運動を観測軌道を基に構築することを考える.提案するロバスト微分動的計画法を用いることにより,PDサーボを用いて構築した軌道にくらべて,ロバストかつ少ない制御出力で歩行が可能となることを示す.
抄録(英) In imitation learning framework, because a learner can not detect teacher's policy or exact torque output directly from observed trajectories, the learner can not easily generate target movements by only observing trajectories of teacher's motions. In such a case, the learner needs to optimize the movements based on observed trajectories with considering own dynamics. In this study, we propose to use hierarchical reinforcement learning (HRL) and differential dynamic programming (DDP) to optimize trajectories. As a first example, we apply HRL to stand-up task using 2-ioint 3-link robot model. We show that by using HRL in imitation learning framework, the learner acquire the stand-up movement faster than without using observation of teacher's trajectories. As a second example, we apply DDP to biped walking task using 5-link biped robot model. We show that the learner using robust DDP can generate low-torque and robust biped walking trajectories than a PD servo controller.
キーワード(和) 強化学習 / 微分動的計画法 / 起立運動 / 歩行運動 / 模倣学習
キーワード(英) reinforcement learning / differential dynamic programming / stand-up / biped locomotion / imitation learning
資料番号 PRMU2003-135,NC2003-66
発行日

研究会情報
研究会 NC
開催期間 2003/10/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) [招待論文]観測軌道を基にした運動の最適化 : 起立運動,歩行運動への適用(PRMU&NCテーマセッション(3) : 模倣学習)(認識と学習,模倣学習)
サブタイトル(和)
タイトル(英) Optimization of observed nominal trajectories : Application to stand-up and biped walking movements
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / reinforcement learning
キーワード(2)(和/英) 微分動的計画法 / differential dynamic programming
キーワード(3)(和/英) 起立運動 / stand-up
キーワード(4)(和/英) 歩行運動 / biped locomotion
キーワード(5)(和/英) 模倣学習 / imitation learning
第 1 著者 氏名(和/英) 森本 淳 / Jun MORIMOTO
第 1 著者 所属(和/英) ATR脳情報研究所
ATR Computational Neurscience Labs
第 2 著者 氏名(和/英) 銅谷 賢治 / / Kenji DOYA
第 2 著者 所属(和/英) ATR脳情報研究所:科学技術振興事業団CREST /
ATR Computational Neurscience Labs:CREST, JST
発表年月日 2003/10/17
資料番号 PRMU2003-135,NC2003-66
巻番号(vol) vol.103
号番号(no) 392
ページ範囲 pp.-
ページ数 6
発行日