講演名 2022-03-10
連合強化学習における蒸留手法の検討
劉 世?(東大), 高前田 伸也(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 強化学習は環境との相互作用の中で高い報酬を獲得するための方策を学習する枠組みである. エージェントが環境について知れば知るほど学習は有利である.そのため,複数のエージェントを用いた探索がしばしば行われる.しかし,エッジデバイスで集めた情報は必ずしもサーバーや他のデバイスに公開できるとは限らない.学習データのプライバシーを守りながら共同で学習する枠組みは連合学習と呼ばれ,特に教師あり学習の分野では盛んに研究されている.本研究では教師あり学習において通信効率などの面で優れていることが確認された,知識蒸留を用いた手法を強化学習に応用する.我々は環境モデルを用いた連合強化学習の蒸留手法を提案し,この手法が通信コストを3桁削減できることを実験によって示した.ところが,同時にこの手法はエピソードの利用効率がベースライン手法に比べて良くないことも分かった.そこでパラメータ変化量を観察することでその原因を分析し改善を試みた.
抄録(英)
キーワード(和) 連合学習 / 強化学習 / DQN / 知識蒸留 / 通信効率
キーワード(英)
資料番号 CPSY2021-52,DC2021-86
発行日 2022-03-03 (CPSY, DC)

研究会情報
研究会 CPSY / DC / IPSJ-SLDM / IPSJ-EMB / IPSJ-ARC
開催期間 2022/3/10(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 組込み技術とネットワークに関するワークショップ ETNET2022
テーマ(英) ETNET2021
委員長氏名(和) 鯉渕 道紘(NII) / 高橋 寛(愛媛大) / 中村 祐一(NEC) / / 井上 弘士(九大)
委員長氏名(英) Michihiro Koibuchi(NII) / Hiroshi Takahashi(Ehime Univ.) / Yuichi Nakamura(NEC) / / Hiroshi Inoue(Kyushu Univ.)
副委員長氏名(和) 中島 耕太(富士通研) / 津邑 公暁(名工大) / 土屋 達弘(阪大)
副委員長氏名(英) Kota Nakajima(Fujitsu Lab.) / Tomoaki Tsumura(Nagoya Inst. of Tech.) / Tatsuhiro Tsuchiya(Osaka Univ.)
幹事氏名(和) 井口 寧(北陸先端大) / 小川 周吾(日立) / 新井 雅之(日大) / 難波 一輝(千葉大) / 瀬戸 謙修(東京都市大) / 川村 一志(東工大) / 廣本 正之(富士通) / 細田 浩希(ソニーLSIデザイン) / / 近藤 正章(東大) / 塩谷 亮太(名大) / 田中 美帆(富士通研) / 長谷川 揚平(東芝メモリ)
幹事氏名(英) Yasushi Inoguchi(JAIST) / Shugo Ogawa(Hitachi) / Masayuki Arai(Nihon Univ.) / Kazuteru Namba(Chiba Univ.) / Kenshu Seto(Tokyo City Univ.) / Kazushi Kawamura(Tokyo Inst. of Tech.) / Masayuki Hiromoto(Fujitsu) / Hiroki Hosoda(Sony LSI Design) / / Masaaki Kondo(Univ. of Tokyo) / Ryota Shioya(Nagoya Univ.) / Miho Tanaka(Fujitsu Labs.) / Yohei Hasegawa(Toshiba Memory)
幹事補佐氏名(和) 小林 諒平(筑波大) / 宮島 敬明(明大)
幹事補佐氏名(英) Ryohei Kobayashi(Tsukuba Univ.) / Takaaki Miyajima(Meiji Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Computer Systems / Technical Committee on Dependable Computing / Special Interest Group on System and LSI Design Methodology / Special Interest Group on Embedded Systems / Special Interest Group on System Architecture
本文の言語 JPN-ONLY
タイトル(和) 連合強化学習における蒸留手法の検討
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英) 連合学習
キーワード(2)(和/英) 強化学習
キーワード(3)(和/英) DQN
キーワード(4)(和/英) 知識蒸留
キーワード(5)(和/英) 通信効率
第 1 著者 氏名(和/英) 劉 世? / Sefutsu Ryu
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 高前田 伸也 / Shinya Takamaeda
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2022-03-10
資料番号 CPSY2021-52,DC2021-86
巻番号(vol) vol.121
号番号(no) CPSY-425,DC-426
ページ範囲 pp.44-49(CPSY), pp.44-49(DC),
ページ数 6
発行日 2022-03-03 (CPSY, DC)