PPOにおける対称な制約条件の適用による学習性能の改善

講演名	2022-06-09 PPOにおける対称な制約条件の適用による学習性能の改善岩谷尚輝(東京都市大), 中野秀洋(東京都市大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	深層強化学習は経験から最適行動を学習するアルゴリズムである。その一種であるProximal Policy Optimization KL Penalty (PPO-KL Penalty)は学習時間の短縮のために、KL制約を用いて大きな更新を抑制し、誤った学習を防ぐ特徴がある。しかし、KL制約は非対称であるため、学習が不安定になる現象が起きる。本研究では対称性のある制約を用いることで学習の安定性向上を図り、学習効率の改善を目指す。
抄録(英)	Deep Reinforcement Learning (DRL) is an algorithm of learning the optimal action from the experiences. PPO KL Penalty, a kind of DRL, features suppressing the large update values by KL constraint and preventing wrong recognition, and can save the learning time. However, PPO KL Penalty is unstable because KL divergence has asymmetrical characteristics. This research aims to apply symmetrical constraint to increase learning stability and efficiency.
キーワード(和)	深層強化学習 / 方策勾配法 / PPO
キーワード(英)	Deep Reinforcement Learning / Policy gradient method / PPO
資料番号	NLP2022-3,CCS2022-3
発行日	2022-06-02 (NLP, CCS)

研究会情報
研究会	CCS / NLP
開催期間	2022/6/9(から2日開催)
開催地（和）	大阪大学豊中キャンパスシグマホール
開催地（英）
テーマ（和）	一般
テーマ（英）
委員長氏名（和）	赤井恵(北大) / 常田明夫(熊本大)
委員長氏名（英）	Megumi Akai(Hokkaido Univ.) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名（和）	会田雅樹(都立大) / 中野秀洋(東京都市大) / 鳥飼弘幸(法政大)
副委員長氏名（英）	Masaki Aida(TMU) / Hidehiro Nakano(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名（和）	眞田耕輔(三重大) / 宮田純子(芝浦工大) / 吉岡大三郎(崇城大) / 伊藤大輔(岐阜大)
幹事氏名（英）	Kosuke Sanada(TDK) / Sumiko Miyata(Shibaura Insti. of Tech.) / Daisaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名（和）	佐々木智志(湘南工科大学) / 安東弘泰(筑波大) / 小林幹(立正大学) / 安田裕之(東京大学) / 横井裕一(長崎大) / 山仲芳和(宇都宮大)
幹事補佐氏名（英）	Tomoyuki Sasaki(Shonan Instit. of Tech.) / Hiroyasu Ando(Tsukuba Univ.) / Miki Kobayashi(Rissho Univ.) / " Hiroyuki YASUDA(The Univ. of Tokyo) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Complex Communication Sciences / Technical Committee on Nonlinear Problems
本文の言語	JPN
タイトル（和）	PPOにおける対称な制約条件の適用による学習性能の改善
サブタイトル（和）
タイトル（英）	Improvement of Learning Performance by Using a Symmetric Constraint Condition in PPO
サブタイトル（和）
キーワード(1)（和/英）	深層強化学習 / Deep Reinforcement Learning
キーワード(2)（和/英）	方策勾配法 / Policy gradient method
キーワード(3)（和/英）	PPO / PPO
第 1 著者氏名（和/英）	岩谷尚輝 / Naoki Iwaya
第 1 著者所属（和/英）	東京都市大学(略称：東京都市大) Tokyo City University(略称：Tokyo City Univ.)
第 2 著者氏名（和/英）	中野秀洋 / Hidehiro Nakano
第 2 著者所属（和/英）	東京都市大学(略称：東京都市大) Tokyo City University(略称：Tokyo City Univ.)
発表年月日	2022-06-09
資料番号	NLP2022-3,CCS2022-3
巻番号（vol）	vol.122
号番号（no）	NLP-65,CCS-66
ページ範囲	pp.13-16(NLP), pp.13-16(CCS),
ページ数	4
発行日	2022-06-02 (NLP, CCS)