講演抄録/キーワード |
講演名 |
2021-03-03 14:50
高次元連続観測空間における安全な強化学習 ○梅本 匠(名工大)・松井藤五郎(中部大)・武藤敦子・森山甲一・犬塚信博(名工大) IBISML2020-50 |
抄録 |
(和) |
本論文では,連続状態空間における成功確率と収益に基づく安全な強化学習の手法であるCSEQを高次元に拡張する方法を提案する.被災地や宇宙などの人が直接行くことのできない危険な環境でロボットの活躍が期待されている.強化学習は試行錯誤に基づいてより良い行動を学習する機械学習の手法であり,強化学習手法の中でも危険回避行動を学習することに着目した安全な強化学習として成功確率と収益に基づくEQという手法が提案されている.これを連続状態空間に拡張した手法がCSEQであり,2次元空間上のシンプルな問題ではその有効性が確認されている.しかしながら,安全な強化学習を活用したいロボットの問題などの観測値は高次元で与えられることがほとんどである.そこで我々はVAEでモデル化された潜在変数の平均値を用いて高次元連続空間を扱うことのできる安全な強化学習を提案する.また,高次元連続状態空間の例題を用いてその有効性を検証した. |
(英) |
We propose a method to extend the reinforcement learning method (CSEQ) based on success probability and profit in continuous state space to higher dimensions. Reinforcement learning is a machine learning method that learns better behavior based on trial and error, and there is a method called EQ based on success probability and profit as safe reinforcement learning focusing on learning danger avoidance behavior, and continuous observation Its effectiveness has been confirmed in the problem on the two-dimensional space of. We propose safe reinforcement learning that deals with high-dimensional continuous space using the mean values of latent variables modeled by VAE. |
キーワード |
(和) |
強化学習 / 安全な強化学習 / 深層学習 / オートエンコーダ / / / / |
(英) |
reinforcement learning / safe reinforcement learning / deep learning / auto encoder / / / / |
文献情報 |
信学技報, vol. 120, no. 395, IBISML2020-50, pp. 55-62, 2021年3月. |
資料番号 |
IBISML2020-50 |
発行日 |
2021-02-23 (IBISML) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2020-50 |