高次元連続観測空間における安全な強化学習

梅本 匠; 松井 藤五郎; 武藤 敦子; 森山 甲一; 犬塚 信博

講演名	2021-03-03 高次元連続観測空間における安全な強化学習梅本匠(名工大), 松井藤五郎(中部大), 武藤敦子(名工大), 森山甲一(名工大), 犬塚信博(名工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本論文では，連続状態空間における成功確率と収益に基づく安全な強化学習の手法であるCSEQを高次元に拡張する方法を提案する．被災地や宇宙などの人が直接行くことのできない危険な環境でロボットの活躍が期待されている．強化学習は試行錯誤に基づいてより良い行動を学習する機械学習の手法であり，強化学習手法の中でも危険回避行動を学習することに着目した安全な強化学習として成功確率と収益に基づくEQという手法が提案されている．これを連続状態空間に拡張した手法がCSEQであり，2次元空間上のシンプルな問題ではその有効性が確認されている．しかしながら，安全な強化学習を活用したいロボットの問題などの観測値は高次元で与えられることがほとんどである．そこで我々はVAEでモデル化された潜在変数の平均値を用いて高次元連続空間を扱うことのできる安全な強化学習を提案する．また，高次元連続状態空間の例題を用いてその有効性を検証した．
抄録(英)	We propose a method to extend the reinforcement learning method (CSEQ) based on success probability and profit in continuous state space to higher dimensions. Reinforcement learning is a machine learning method that learns better behavior based on trial and error, and there is a method called EQ based on success probability and profit as safe reinforcement learning focusing on learning danger avoidance behavior, and continuous observation Its effectiveness has been confirmed in the problem on the two-dimensional space of. We propose safe reinforcement learning that deals with high-dimensional continuous space using the mean values of latent variables modeled by VAE.
キーワード(和)	強化学習 / 安全な強化学習 / 深層学習 / オートエンコーダ
キーワード(英)	reinforcement learning / safe reinforcement learning / deep learning / auto encoder
資料番号	IBISML2020-50
発行日	2021-02-23 (IBISML)

研究会情報
研究会	IBISML
開催期間	2021/3/2(から3日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	機械学習に関するオーガナイズドセッションおよび一般
テーマ（英）	Organized and general sessions on machine learning
委員長氏名（和）	竹内一郎(名工大)
委員長氏名（英）	Ichiro Takeuchi(Nagoya Inst. of Tech.)
副委員長氏名（和）	杉山将(東大) / 津田宏治(東大)
副委員長氏名（英）	Masashi Sugiyama(Univ. of Tokyo) / Koji Tsuda(Univ. of Tokyo)
幹事氏名（和）	神嶌敏弘(産総研) / 岩田具治(NTT)
幹事氏名（英）	Toshihiro Kamishima(AIST) / Tomoharu Iwata(NTT)
幹事補佐氏名（和）	中村篤祥(北大) / 大羽成征(ミイダス)
幹事補佐氏名（英）	Atsuyoshi Nakamura(Hokkaido Univ.) / Shigeyuki Oba(Miidas)

講演論文情報詳細
申込み研究会	Technical Committee on Infomation-Based Induction Sciences and Machine Learning
本文の言語	JPN
タイトル（和）	高次元連続観測空間における安全な強化学習
サブタイトル（和）
タイトル（英）	Safe reinforcement learning in high-dimensional continuous spaces
サブタイトル（和）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	安全な強化学習 / safe reinforcement learning
キーワード(3)（和/英）	深層学習 / deep learning
キーワード(4)（和/英）	オートエンコーダ / auto encoder
第 1 著者氏名（和/英）	梅本匠 / Takumi Umemoto
第 1 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：NIT)
第 2 著者氏名（和/英）	松井藤五郎 / Tohgoroh Matsui
第 2 著者所属（和/英）	中部大学(略称：中部大) Chubu University(略称：Chubu Univ.)
第 3 著者氏名（和/英）	武藤敦子 / Atsuko Mutoh
第 3 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：NIT)
第 4 著者氏名（和/英）	森山甲一 / Koich Moriyama
第 4 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：NIT)
第 5 著者氏名（和/英）	犬塚信博 / Inuzuka Nobuhiro
第 5 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：NIT)
発表年月日	2021-03-03
資料番号	IBISML2020-50
巻番号（vol）	vol.120
号番号（no）	IBISML-395
ページ範囲	pp.55-62(IBISML),
ページ数	8
発行日	2021-02-23 (IBISML)