回避行動の再利用メカニズムを備えた強化学習のための関数近似器修正手法と多関節ロボットへの応用 ～ * ～

山口,明彦; 杉本,徳和; 川人,光男

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2007-12-22 16:35 回避行動の再利用メカニズムを備えた強化学習のための関数近似器修正手法と多関節ロボットへの応用 ○山口明彦（奈良先端大/ATR）・杉本徳和（ATR）・川人光男（ATR/奈良先端大） NC2007-86
抄録	（和）	強化学習などの学習手法をロボットの運動学習に適用する際に問題となる学習コスト（転倒によるダメージなど）を軽減する一手法として，我々はあるタスクの学習中に回避行動を分離して学習しこれをほかのタスクの学習で再利用する手法を強化学習の枠組で提案，4リンク程度の土台非固定型ロボットへの応用を行ってきた．本稿では分離学習における分離性能を向上させることを目的として基底関数を修正する手法を提案し，運動学習における有効性を示す．さらに回避行動を再利用することによって運動学習における転倒ダメージが軽減するかを検討する．
	（英）	Applying a learning method, such as reinforcement learning, to learning motions of multi-link robots requires large cost, such as damage from falling down. To overcome this problem, we proposed a reusing mechanism for reinforcement learning where the avoidance actions, such as not to fall down, are learned separately from primary actions, then they are reused in learning new tasks. A method to apply it to learning whole-body motions of 4-link robot whose base is not fixed to a ground was also developed. In this paper, we propose a new method to modify basis functions of a function approximator of an action value function to improve the separative performance, and demonstrate the method works effectively in learning whole-body motions of a multi-link robot. Furthermore, we investigate a learning cost of damage from falling down in learning whole-body motions is reduced by reusing avoidance actions.
キーワード	（和）	運動学習 / 強化学習 / 再利用 / 回避行動 / 跳躍 / サーブ / /
	（英）	motion learning / reinforcement learning / reusing / avoidance actions / jumpping / serve / /
文献情報		信学技報, vol. 107, no. 410, NC2007-86, pp. 87-92, 2007年12月.
資料番号		NC2007-86
発行日		2007-12-15 (NC)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NC2007-86

研究会情報
研究会	MBE NC
開催期間	2007-12-22 - 2007-12-22
開催地（和）	名古屋大学
開催地（英）
テーマ（和）	一般
テーマ（英）
講演論文情報の詳細
申込み研究会	NC
会議コード	2007-12-MBE-NC
本文の言語	日本語
タイトル（和）	回避行動の再利用メカニズムを備えた強化学習のための関数近似器修正手法と多関節ロボットへの応用
サブタイトル（和）	*
タイトル（英）	A Modification Algorithm of Function Approximator for the Reinforcement Learning with Reusing Mechanism of Avoidance Actions
サブタイトル（英）	Proposal and its Application to Motion Learning of Multi-Link Robot
キーワード(1)（和/英）	運動学習 / motion learning
キーワード(2)（和/英）	強化学習 / reinforcement learning
キーワード(3)（和/英）	再利用 / reusing
キーワード(4)（和/英）	回避行動 / avoidance actions
キーワード(5)（和/英）	跳躍 / jumpping
キーワード(6)（和/英）	サーブ / serve
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	山口明彦 / Akihiko Yamaguchi / ヤマグチアキヒコ
第1著者所属（和/英）	奈良先端科学技術大学院大学 (略称：奈良先端大/ATR) Nara Institute of Science and Technology (略称： NAIST)
第2著者氏名（和/英/ヨミ）	杉本徳和 / Norikazu Sugimoto / スギモトノリカズ
第2著者所属（和/英）	株式会社国際電気通信基礎技術研究所脳情報研究所 (略称： ATR) Advanced Telecommunications Research Institute International - Computational Neuroscience Laboratories (略称： ATR-CNS)
第3著者氏名（和/英/ヨミ）	川人光男 / Mitsuo Kawato / カワトミツオ
第3著者所属（和/英）	株式会社国際電気通信基礎技術研究所脳情報研究所 (略称： ATR/奈良先端大) Advanced Telecommunications Research Institute International - Computational Neuroscience Laboratories (略称： ATR-CNS)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2007-12-22 16:35:00
発表時間	25分
申込先研究会	NC
資料番号	NC2007-86
巻番号（vol）	vol.107
号番号（no）	no.410
ページ範囲	pp.87-92
ページ数	6
発行日	2007-12-15 (NC)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会