お知らせ 研究会の開催と会場に参加される皆様へのお願い(2020年10月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2021-03-03 14:50
高次元連続観測空間における安全な強化学習
梅本 匠名工大)・松井藤五郎中部大)・武藤敦子森山甲一犬塚信博名工大IBISML2020-50
抄録 (和) 本論文では,連続状態空間における成功確率と収益に基づく安全な強化学習の手法であるCSEQを高次元に拡張する方法を提案する.被災地や宇宙などの人が直接行くことのできない危険な環境でロボットの活躍が期待されている.強化学習は試行錯誤に基づいてより良い行動を学習する機械学習の手法であり,強化学習手法の中でも危険回避行動を学習することに着目した安全な強化学習として成功確率と収益に基づくEQという手法が提案されている.これを連続状態空間に拡張した手法がCSEQであり,2次元空間上のシンプルな問題ではその有効性が確認されている.しかしながら,安全な強化学習を活用したいロボットの問題などの観測値は高次元で与えられることがほとんどである.そこで我々はVAEでモデル化された潜在変数の平均値を用いて高次元連続空間を扱うことのできる安全な強化学習を提案する.また,高次元連続状態空間の例題を用いてその有効性を検証した. 
(英) We propose a method to extend the reinforcement learning method (CSEQ) based on success probability and profit in continuous state space to higher dimensions. Reinforcement learning is a machine learning method that learns better behavior based on trial and error, and there is a method called EQ based on success probability and profit as safe reinforcement learning focusing on learning danger avoidance behavior, and continuous observation Its effectiveness has been confirmed in the problem on the two-dimensional space of. We propose safe reinforcement learning that deals with high-dimensional continuous space using the mean values of latent variables modeled by VAE.
キーワード (和) 強化学習 / 安全な強化学習 / 深層学習 / オートエンコーダ / / / /  
(英) reinforcement learning / safe reinforcement learning / deep learning / auto encoder / / / /  
文献情報 信学技報, vol. 120, no. 395, IBISML2020-50, pp. 55-62, 2021年3月.
資料番号 IBISML2020-50 
発行日 2021-02-23 (IBISML) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード IBISML2020-50

研究会情報
研究会 IBISML  
開催期間 2021-03-02 - 2021-03-04 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) 機械学習に関するオーガナイズドセッションおよび一般 
テーマ(英) Organized and general sessions on machine learning 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2021-03-IBISML 
本文の言語 日本語 
タイトル(和) 高次元連続観測空間における安全な強化学習 
サブタイトル(和)  
タイトル(英) Safe reinforcement learning in high-dimensional continuous spaces 
サブタイトル(英)  
キーワード(1)(和/英) 強化学習 / reinforcement learning  
キーワード(2)(和/英) 安全な強化学習 / safe reinforcement learning  
キーワード(3)(和/英) 深層学習 / deep learning  
キーワード(4)(和/英) オートエンコーダ / auto encoder  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 梅本 匠 / Takumi Umemoto / ウメモト タクミ
第1著者 所属(和/英) 名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NIT)
第2著者 氏名(和/英/ヨミ) 松井 藤五郎 / Tohgoroh Matsui / マツイ トウゴロウ
第2著者 所属(和/英) 中部大学 (略称: 中部大)
Chubu University (略称: Chubu Univ.)
第3著者 氏名(和/英/ヨミ) 武藤 敦子 / Atsuko Mutoh / ムトウ アツコ
第3著者 所属(和/英) 名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NIT)
第4著者 氏名(和/英/ヨミ) 森山 甲一 / Koich Moriyama / モリヤマ コウイチ
第4著者 所属(和/英) 名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NIT)
第5著者 氏名(和/英/ヨミ) 犬塚 信博 / Inuzuka Nobuhiro / イヌヅカ ノブヒロ
第5著者 所属(和/英) 名古屋工業大学 (略称: 名工大)
Nagoya Institute of Technology (略称: NIT)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2021-03-03 14:50:00 
発表時間 25 
申込先研究会 IBISML 
資料番号 IEICE-IBISML2020-50 
巻番号(vol) IEICE-120 
号番号(no) no.395 
ページ範囲 pp.55-62 
ページ数 IEICE-8 
発行日 IEICE-IBISML-2021-02-23 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会