講演名 2023-01-29
レザバーアクタークリティックモデルによるロボットの連続値制御
湊 宏太郎(はこだて未来大), 香取 勇一(はこだて未来大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 複雑な環境下で動作するロボットの制御のために,深層学習の活用が期待されているが,それには大量のデータ,学習時間,電力が必要になるという問題がある.これを解決する方法としてレザバー計算(Reservoir Computing:RC)を用いたロボット制御が提案されているが,制御信号が連続値である場合の制御方法は明らかになっていない .本研究では強化学習手法の一つであるアクタークリティック法をRCと組み合わせて,連続値による制御が要求されるロボット制御のモデルを構築する.このレザバーアクタークリティックモデルが,連続値制御が要求される車の山登りタスク(MountainCarContinuous-v0)において,うまく動作することを報告する.
抄録(英) Deep learning is expected to be utilized to control robots operating in complex environments, but this requires a large amount of data, training time, and power. Robot control using reservoir computing (RC) has been proposed as a method to solve this problem, but the control method when the control signal is a continuous value has yet to be elucidated. In this study, the actor-critic method, one of the reinforcement learning methods, is combined with RC to construct a model of robot control that requires control by continuous values. We report that the reservoir actor-critic model performs well in a car mountain climbing task (MountainCarContinuous-v0), which requires continuous-valued control.
キーワード(和) レザバー計算 / 強化学習 / アクタークリティック法 / 連続行動空間
キーワード(英) reservoir computing / reinforcement learning / actor-critic method / continuous action space
資料番号 NLP2022-103,NC2022-87
発行日 2023-01-21 (NLP, NC)

研究会情報
研究会 NC / NLP
開催期間 2023/1/28(から2日開催)
開催地(和) 公立はこだて未来大学
開催地(英) Future University Hakodate
テーマ(和) NC, NLP, 一般
テーマ(英) NC, NLP, etc.
委員長氏名(和) 山川 宏(東大) / 常田 明夫(熊本大)
委員長氏名(英) Hiroshi Yamakawa(Univ of Tokyo) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名(和) 田中 宏和(東京都市大学) / 鳥飼 弘幸(法政大)
副委員長氏名(英) Hirokazu Tanaka(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名(和) 寺島 裕貴(NTT) / 西田 知史(NICT) / 吉岡 大三郎(崇城大) / 伊藤 大輔(岐阜大)
幹事氏名(英) Hiroki Terashima(NTT) / Satoshi Nishida(NICT) / Daizaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名(和) 田和辻 可昌(早大) / 栗川 知己(関西医科大) / 横井 裕一(長崎大) / 山仲 芳和(宇都宮大)
幹事補佐氏名(英) Yoshimasa Tawatsuji(Waseda Univ.) / Tomoki Kurikawa(KMU) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Neurocomputing / Technical Committee on Nonlinear Problems
本文の言語 JPN
タイトル(和) レザバーアクタークリティックモデルによるロボットの連続値制御
サブタイトル(和)
タイトル(英) Continuous Value Control of Robot with Reservoir Actor-Critic Model
サブタイトル(和)
キーワード(1)(和/英) レザバー計算 / reservoir computing
キーワード(2)(和/英) 強化学習 / reinforcement learning
キーワード(3)(和/英) アクタークリティック法 / actor-critic method
キーワード(4)(和/英) 連続行動空間 / continuous action space
第 1 著者 氏名(和/英) 湊 宏太郎 / Koutaro Minato
第 1 著者 所属(和/英) 公立はこだて未来大学(略称:はこだて未来大)
Future University Hakodate(略称:Future Univ Hakodate)
第 2 著者 氏名(和/英) 香取 勇一 / Yuichi Katori
第 2 著者 所属(和/英) 公立はこだて未来大学(略称:はこだて未来大)
Future University Hakodate(略称:Future Univ Hakodate)
発表年月日 2023-01-29
資料番号 NLP2022-103,NC2022-87
巻番号(vol) vol.122
号番号(no) NLP-373,NC-374
ページ範囲 pp.118-122(NLP), pp.118-122(NC),
ページ数 5
発行日 2023-01-21 (NLP, NC)