講演名 2022-06-09
PPOにおける対称な制約条件の適用による学習性能の改善
岩谷 尚輝(東京都市大), 中野 秀洋(東京都市大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 深層強化学習は経験から最適行動を学習するアルゴリズムである。その一種であるProximal Policy Optimization KL Penalty (PPO-KL Penalty)は学習時間の短縮のために、KL制約を用いて大きな更新を抑制し、誤った学習を防ぐ特徴がある。しかし、KL制約は非対称であるため、学習が不安定になる現象が起きる。本研究では対称性のある制約を用いることで学習の安定性向上を図り、学習効率の改善を目指す。
抄録(英) Deep Reinforcement Learning (DRL) is an algorithm of learning the optimal action from the experiences. PPO KL Penalty, a kind of DRL, features suppressing the large update values by KL constraint and preventing wrong recognition, and can save the learning time. However, PPO KL Penalty is unstable because KL divergence has asymmetrical characteristics. This research aims to apply symmetrical constraint to increase learning stability and efficiency.
キーワード(和) 深層強化学習 / 方策勾配法 / PPO
キーワード(英) Deep Reinforcement Learning / Policy gradient method / PPO
資料番号 NLP2022-3,CCS2022-3
発行日 2022-06-02 (NLP, CCS)

研究会情報
研究会 CCS / NLP
開催期間 2022/6/9(から2日開催)
開催地(和) 大阪大学 豊中キャンパス シグマホール
開催地(英)
テーマ(和) 一般
テーマ(英)
委員長氏名(和) 赤井 恵(北大) / 常田 明夫(熊本大)
委員長氏名(英) Megumi Akai(Hokkaido Univ.) / Akio Tsuneda(Kumamoto Univ.)
副委員長氏名(和) 会田 雅樹(都立大) / 中野 秀洋(東京都市大) / 鳥飼 弘幸(法政大)
副委員長氏名(英) Masaki Aida(TMU) / Hidehiro Nakano(Tokyo City Univ.) / Hiroyuki Torikai(Hosei Univ.)
幹事氏名(和) 眞田 耕輔(三重大) / 宮田 純子(芝浦工大) / 吉岡 大三郎(崇城大) / 伊藤 大輔(岐阜大)
幹事氏名(英) Kosuke Sanada(TDK) / Sumiko Miyata(Shibaura Insti. of Tech.) / Daisaburo Yoshioka(Sojo Univ.) / Daisuke Ito(Gifu Univ.)
幹事補佐氏名(和) 佐々木 智志(湘南工科大学) / 安東 弘泰(筑波大) / 小林 幹(立正大学) / 安田 裕之(東京大学) / 横井 裕一(長崎大) / 山仲 芳和(宇都宮大)
幹事補佐氏名(英) Tomoyuki Sasaki(Shonan Instit. of Tech.) / Hiroyasu Ando(Tsukuba Univ.) / Miki Kobayashi(Rissho Univ.) / " Hiroyuki YASUDA(The Univ. of Tokyo) / Yuichi Yokoi(Nagasaki Univ.) / Yoshikazu Yamanaka(Utsunomiya Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Complex Communication Sciences / Technical Committee on Nonlinear Problems
本文の言語 JPN
タイトル(和) PPOにおける対称な制約条件の適用による学習性能の改善
サブタイトル(和)
タイトル(英) Improvement of Learning Performance by Using a Symmetric Constraint Condition in PPO
サブタイトル(和)
キーワード(1)(和/英) 深層強化学習 / Deep Reinforcement Learning
キーワード(2)(和/英) 方策勾配法 / Policy gradient method
キーワード(3)(和/英) PPO / PPO
第 1 著者 氏名(和/英) 岩谷 尚輝 / Naoki Iwaya
第 1 著者 所属(和/英) 東京都市大学(略称:東京都市大)
Tokyo City University(略称:Tokyo City Univ.)
第 2 著者 氏名(和/英) 中野 秀洋 / Hidehiro Nakano
第 2 著者 所属(和/英) 東京都市大学(略称:東京都市大)
Tokyo City University(略称:Tokyo City Univ.)
発表年月日 2022-06-09
資料番号 NLP2022-3,CCS2022-3
巻番号(vol) vol.122
号番号(no) NLP-65,CCS-66
ページ範囲 pp.13-16(NLP), pp.13-16(CCS),
ページ数 4
発行日 2022-06-02 (NLP, CCS)