講演名 2007-03-14
サンプル再利用型強化学習による準受動2足歩行ロボットの学習
植野 剛, 中村 泰, 田熊 隆史, 柴田 智広, 細田 耕, 石井 信,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,エネルギー効率が良く,人の歩容に似ている準受動歩行が注目されている.準受動歩行の制御器の設計は,ロボットの物理パラメータおよびに環境の変化に敏感であるため,制御パラメータの自動調節が望まれる.強化学習は環境に適応するための学習法の1つであり,シミュレーション実験で,準受動歩行に強化学習を適用した研究が知られている.しかし,既存手法を実機のロボットに適用すると,学習速度が遅いためロボットが適切な制御器を獲得する前に故障してしまう可能性がある.本研究では,学習を加速するために,過去の制御器で獲得したサンプルを再利用することが可能なoff-policy Natural Actor-Critic法(off-NAC法)を採用し,準受動歩行の安定した制御器の獲得問題に適用する.本研究では,さらに,学習係数を適応的に調節する手法も提案する.本手法により,シミュレーション実験,実機実験の両方で安定かつ高速に準受動歩行の安定な制御器を獲得することが可能であることを示す.
抄録(英) Recently, many researchers on humanoid robotics are interested in Quasi-Passive Dynamic Walking (Quasi-PDW), which is similar to human walking. It is desirable that control parameters in Quasi-PDW are automatically adjusted because robots often suffer from changes in their physical parameters and the surrounding environment. Reinforcement learning (RL) can be a key technology to this adaptability, and it has been shown that RL realizes Quasi-PDW in simulation studies. To apply the existing RL method to controlling real robots, however, further improvement to accelerate its learning is required. Otherwise, the robots would break down before acquiring appropriate controller. For this purpose, this study employs an off-policy natural actor-critic (off-NAC) which is able to reuse the samples that has already been obtained. This study also proposes an adaptive method of the learning rate which works with the off-NAC method. Simulation as well as real experiments demonstrate that fast and stable learning of Quasi-PDW of an unstable biped robot can be realized by our proposed method.
キーワード(和) 強化学習 / 準受動歩行 / 適応制御
キーワード(英) Reinforcement Learning / Quasi-Passive Dynamic Walk / Adaptive Control
資料番号 NC2006-151
発行日

研究会情報
研究会 NC
開催期間 2007/3/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) サンプル再利用型強化学習による準受動2足歩行ロボットの学習
サブタイトル(和)
タイトル(英) Learning of a robust controller for a biped robot based on a sample-reuse reinforcement learning method
サブタイトル(和)
キーワード(1)(和/英) 強化学習 / Reinforcement Learning
キーワード(2)(和/英) 準受動歩行 / Quasi-Passive Dynamic Walk
キーワード(3)(和/英) 適応制御 / Adaptive Control
第 1 著者 氏名(和/英) 植野 剛 / Tsuyoshi UENO
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Department of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 中村 泰 / Yutaka NAKAMURA
第 2 著者 所属(和/英) 大阪大学大学院工学研究科
Department of Engineering, Osaka University
第 3 著者 氏名(和/英) 田熊 隆史 / Takashi TAKUMA
第 3 著者 所属(和/英) 大阪大学大学院工学研究科
Department of Engineering, Osaka University
第 4 著者 氏名(和/英) 柴田 智広 / Tomohiro SHIBATA
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Department of Information Science, Nara Institute of Science and Technology
第 5 著者 氏名(和/英) 細田 耕 / Koh Hosoda
第 5 著者 所属(和/英) 大阪大学大学院工学研究科
Department of Engineering, Osaka University
第 6 著者 氏名(和/英) 石井 信 / Shin ISHI
第 6 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Department of Information Science, Nara Institute of Science and Technology
発表年月日 2007-03-14
資料番号 NC2006-151
巻番号(vol) vol.106
号番号(no) 588
ページ範囲 pp.-
ページ数 6
発行日