レザバーアクタークリティックモデルによるロボットの連続値制御

湊 宏太郎; 香取 勇一

講演名	2023-01-29 レザバーアクタークリティックモデルによるロボットの連続値制御湊宏太郎(はこだて未来大), 香取勇一(はこだて未来大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	複雑な環境下で動作するロボットの制御のために，深層学習の活用が期待されているが，それには大量のデータ，学習時間，電力が必要になるという問題がある．これを解決する方法としてレザバー計算(Reservoir Computing:RC)を用いたロボット制御が提案されているが，制御信号が連続値である場合の制御方法は明らかになっていない．本研究では強化学習手法の一つであるアクタークリティック法をRCと組み合わせて，連続値による制御が要求されるロボット制御のモデルを構築する．このレザバーアクタークリティックモデルが，連続値制御が要求される車の山登りタスク(MountainCarContinuous-v0)において,うまく動作することを報告する．
抄録(英)	Deep learning is expected to be utilized to control robots operating in complex environments, but this requires a large amount of data, training time, and power. Robot control using reservoir computing (RC) has been proposed as a method to solve this problem, but the control method when the control signal is a continuous value has yet to be elucidated. In this study, the actor-critic method, one of the reinforcement learning methods, is combined with RC to construct a model of robot control that requires control by continuous values. We report that the reservoir actor-critic model performs well in a car mountain climbing task (MountainCarContinuous-v0), which requires continuous-valued control.
キーワード(和)	レザバー計算 / 強化学習 / アクタークリティック法 / 連続行動空間
キーワード(英)	reservoir computing / reinforcement learning / actor-critic method / continuous action space
資料番号	NLP2022-103,NC2022-87
発行日	2023-01-21 (NLP, NC)

研究会情報
研究会	NC / NLP
開催期間	2023/1/28(から2日開催)
開催地（和）	公立はこだて未来大学
開催地（英）	Future University Hakodate
テーマ（和）	NC, NLP, 一般
テーマ（英）	NC, NLP, etc.
委員長氏名（和）	山川宏(東大) / 常田明夫(熊本大)
委員長氏名（英）	Hiroshi Yamakawa(Univ of Tokyo) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名（和）	田中宏和(東京都市大学) / 鳥飼弘幸(法政大)
副委員長氏名（英）	Hirokazu Tanaka(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名（和）	寺島裕貴(NTT) / 西田知史(NICT) / 吉岡大三郎(崇城大) / 伊藤大輔(岐阜大)
幹事氏名（英）	Hiroki Terashima(NTT) / Satoshi Nishida(NICT) / Daizaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名（和）	田和辻可昌(早大) / 栗川知己(関西医科大) / 横井裕一(長崎大) / 山仲芳和(宇都宮大)
幹事補佐氏名（英）	Yoshimasa Tawatsuji(Waseda Univ.) / Tomoki Kurikawa(KMU) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Neurocomputing / Technical Committee on Nonlinear Problems
本文の言語	JPN
タイトル（和）	レザバーアクタークリティックモデルによるロボットの連続値制御
サブタイトル（和）
タイトル（英）	Continuous Value Control of Robot with Reservoir Actor-Critic Model
サブタイトル（和）
キーワード(1)（和/英）	レザバー計算 / reservoir computing
キーワード(2)（和/英）	強化学習 / reinforcement learning
キーワード(3)（和/英）	アクタークリティック法 / actor-critic method
キーワード(4)（和/英）	連続行動空間 / continuous action space
第 1 著者氏名（和/英）	湊宏太郎 / Koutaro Minato
第 1 著者所属（和/英）	公立はこだて未来大学(略称：はこだて未来大) Future University Hakodate(略称：Future Univ Hakodate)
第 2 著者氏名（和/英）	香取勇一 / Yuichi Katori
第 2 著者所属（和/英）	公立はこだて未来大学(略称：はこだて未来大) Future University Hakodate(略称：Future Univ Hakodate)
発表年月日	2023-01-29
資料番号	NLP2022-103,NC2022-87
巻番号（vol）	vol.122
号番号（no）	NLP-373,NC-374
ページ範囲	pp.118-122(NLP), pp.118-122(NC),
ページ数	5
発行日	2023-01-21 (NLP, NC)