高次元連続観測空間における安全な強化学習

梅本,匠; 松井,藤五郎; 武藤,敦子; 森山,甲一; 犬塚,信博

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2021-03-03 14:50 高次元連続観測空間における安全な強化学習 ○梅本　匠（名工大）・松井藤五郎（中部大）・武藤敦子・森山甲一・犬塚信博（名工大） IBISML2020-50
抄録	（和）	本論文では，連続状態空間における成功確率と収益に基づく安全な強化学習の手法であるCSEQを高次元に拡張する方法を提案する．被災地や宇宙などの人が直接行くことのできない危険な環境でロボットの活躍が期待されている．強化学習は試行錯誤に基づいてより良い行動を学習する機械学習の手法であり，強化学習手法の中でも危険回避行動を学習することに着目した安全な強化学習として成功確率と収益に基づくEQという手法が提案されている．これを連続状態空間に拡張した手法がCSEQであり，2次元空間上のシンプルな問題ではその有効性が確認されている．しかしながら，安全な強化学習を活用したいロボットの問題などの観測値は高次元で与えられることがほとんどである．そこで我々はVAEでモデル化された潜在変数の平均値を用いて高次元連続空間を扱うことのできる安全な強化学習を提案する．また，高次元連続状態空間の例題を用いてその有効性を検証した．
	（英）	We propose a method to extend the reinforcement learning method (CSEQ) based on success probability and profit in continuous state space to higher dimensions. Reinforcement learning is a machine learning method that learns better behavior based on trial and error, and there is a method called EQ based on success probability and profit as safe reinforcement learning focusing on learning danger avoidance behavior, and continuous observation Its effectiveness has been confirmed in the problem on the two-dimensional space of. We propose safe reinforcement learning that deals with high-dimensional continuous space using the mean values of latent variables modeled by VAE.
キーワード	（和）	強化学習 / 安全な強化学習 / 深層学習 / オートエンコーダ / / / /
	（英）	reinforcement learning / safe reinforcement learning / deep learning / auto encoder / / / /
文献情報		信学技報, vol. 120, no. 395, IBISML2020-50, pp. 55-62, 2021年3月.
資料番号		IBISML2020-50
発行日		2021-02-23 (IBISML)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		IBISML2020-50

研究会情報
研究会	IBISML
開催期間	2021-03-02 - 2021-03-04
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	機械学習に関するオーガナイズドセッションおよび一般
テーマ（英）	Organized and general sessions on machine learning
講演論文情報の詳細
申込み研究会	IBISML
会議コード	2021-03-IBISML
本文の言語	日本語
タイトル（和）	高次元連続観測空間における安全な強化学習
サブタイトル（和）
タイトル（英）	Safe reinforcement learning in high-dimensional continuous spaces
サブタイトル（英）
キーワード(1)（和/英）	強化学習 / reinforcement learning
キーワード(2)（和/英）	安全な強化学習 / safe reinforcement learning
キーワード(3)（和/英）	深層学習 / deep learning
キーワード(4)（和/英）	オートエンコーダ / auto encoder
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	梅本匠 / Takumi Umemoto / ウメモトタクミ
第1著者所属（和/英）	名古屋工業大学 (略称：名工大) Nagoya Institute of Technology (略称： NIT)
第2著者氏名（和/英/ヨミ）	松井藤五郎 / Tohgoroh Matsui / マツイトウゴロウ
第2著者所属（和/英）	中部大学 (略称：中部大) Chubu University (略称： Chubu Univ.)
第3著者氏名（和/英/ヨミ）	武藤敦子 / Atsuko Mutoh / ムトウアツコ
第3著者所属（和/英）	名古屋工業大学 (略称：名工大) Nagoya Institute of Technology (略称： NIT)
第4著者氏名（和/英/ヨミ）	森山甲一 / Koich Moriyama / モリヤマコウイチ
第4著者所属（和/英）	名古屋工業大学 (略称：名工大) Nagoya Institute of Technology (略称： NIT)
第5著者氏名（和/英/ヨミ）	犬塚信博 / Inuzuka Nobuhiro / イヌヅカノブヒロ
第5著者所属（和/英）	名古屋工業大学 (略称：名工大) Nagoya Institute of Technology (略称： NIT)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2021-03-03 14:50:00
発表時間	25分
申込先研究会	IBISML
資料番号	IBISML2020-50
巻番号（vol）	vol.120
号番号（no）	no.395
ページ範囲	pp.55-62
ページ数	8
発行日	2021-02-23 (IBISML)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会