講演名 | 2023-01-29 レザバーアクタークリティックモデルによるロボットの連続値制御 湊 宏太郎(はこだて未来大), 香取 勇一(はこだて未来大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 複雑な環境下で動作するロボットの制御のために,深層学習の活用が期待されているが,それには大量のデータ,学習時間,電力が必要になるという問題がある.これを解決する方法としてレザバー計算(Reservoir Computing:RC)を用いたロボット制御が提案されているが,制御信号が連続値である場合の制御方法は明らかになっていない .本研究では強化学習手法の一つであるアクタークリティック法をRCと組み合わせて,連続値による制御が要求されるロボット制御のモデルを構築する.このレザバーアクタークリティックモデルが,連続値制御が要求される車の山登りタスク(MountainCarContinuous-v0)において,うまく動作することを報告する. |
抄録(英) | Deep learning is expected to be utilized to control robots operating in complex environments, but this requires a large amount of data, training time, and power. Robot control using reservoir computing (RC) has been proposed as a method to solve this problem, but the control method when the control signal is a continuous value has yet to be elucidated. In this study, the actor-critic method, one of the reinforcement learning methods, is combined with RC to construct a model of robot control that requires control by continuous values. We report that the reservoir actor-critic model performs well in a car mountain climbing task (MountainCarContinuous-v0), which requires continuous-valued control. |
キーワード(和) | レザバー計算 / 強化学習 / アクタークリティック法 / 連続行動空間 |
キーワード(英) | reservoir computing / reinforcement learning / actor-critic method / continuous action space |
資料番号 | NLP2022-103,NC2022-87 |
発行日 | 2023-01-21 (NLP, NC) |
研究会情報 | |
研究会 | NC / NLP |
---|---|
開催期間 | 2023/1/28(から2日開催) |
開催地(和) | 公立はこだて未来大学 |
開催地(英) | Future University Hakodate |
テーマ(和) | NC, NLP, 一般 |
テーマ(英) | NC, NLP, etc. |
委員長氏名(和) | 山川 宏(東大) / 常田 明夫(熊本大) |
委員長氏名(英) | Hiroshi Yamakawa(Univ of Tokyo) / Akio Tsuneda(Kumamoto Univ.) |
副委員長氏名(和) | 田中 宏和(東京都市大学) / 鳥飼 弘幸(法政大) |
副委員長氏名(英) | Hirokazu Tanaka(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.) |
幹事氏名(和) | 寺島 裕貴(NTT) / 西田 知史(NICT) / 吉岡 大三郎(崇城大) / 伊藤 大輔(岐阜大) |
幹事氏名(英) | Hiroki Terashima(NTT) / Satoshi Nishida(NICT) / Daizaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.) |
幹事補佐氏名(和) | 田和辻 可昌(早大) / 栗川 知己(関西医科大) / 横井 裕一(長崎大) / 山仲 芳和(宇都宮大) |
幹事補佐氏名(英) | Yoshimasa Tawatsuji(Waseda Univ.) / Tomoki Kurikawa(KMU) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Neurocomputing / Technical Committee on Nonlinear Problems |
---|---|
本文の言語 | JPN |
タイトル(和) | レザバーアクタークリティックモデルによるロボットの連続値制御 |
サブタイトル(和) | |
タイトル(英) | Continuous Value Control of Robot with Reservoir Actor-Critic Model |
サブタイトル(和) | |
キーワード(1)(和/英) | レザバー計算 / reservoir computing |
キーワード(2)(和/英) | 強化学習 / reinforcement learning |
キーワード(3)(和/英) | アクタークリティック法 / actor-critic method |
キーワード(4)(和/英) | 連続行動空間 / continuous action space |
第 1 著者 氏名(和/英) | 湊 宏太郎 / Koutaro Minato |
第 1 著者 所属(和/英) | 公立はこだて未来大学(略称:はこだて未来大) Future University Hakodate(略称:Future Univ Hakodate) |
第 2 著者 氏名(和/英) | 香取 勇一 / Yuichi Katori |
第 2 著者 所属(和/英) | 公立はこだて未来大学(略称:はこだて未来大) Future University Hakodate(略称:Future Univ Hakodate) |
発表年月日 | 2023-01-29 |
資料番号 | NLP2022-103,NC2022-87 |
巻番号(vol) | vol.122 |
号番号(no) | NLP-373,NC-374 |
ページ範囲 | pp.118-122(NLP), pp.118-122(NC), |
ページ数 | 5 |
発行日 | 2023-01-21 (NLP, NC) |