講演名 | 2020-01-23 オンライン逐次学習アルゴリズムを用いた強化学習の軽量化 渡邉 寛悠(慶大), 塚田 峰登(慶大), 松谷 宏紀(慶大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | DQN(Deep Q-Network)とは、強化学習におけるQ学習を深層学習モデルに置き換えた手法である。しかし、DQNは大容量のバッファが必要であることや、深層学習において誤差逆伝播法を用いているため、収束までの時間が遅いという課題がある。そこで本論文では、誤差逆伝搬法を用いずに解析的に重みを決定する手法である、ELM(Extreme Learning Machine)、及びOS-ELM(Online Sequential ELM)をQ学習に対して適用することで、収束までの時間を短縮する手法を提案する。しかし、ELM及びOS-ELMは3層のニューラルネットワークであるため、与えられるデータに対する過学習が発生する場合や、未知の状態に対して異常値を出力する傾向があり、目的としている一連の正しい行動の獲得が安定しない。そのため、本論文では学習を安定させるために、既存の正則化手法であるL2正則化にスペクトル正規化を加えることで、これらのモデルが出力する値を滑らかなものにする手法を提案するとともに、この手法が学習を効果的に安定させることを示す。 |
抄録(英) | |
キーワード(和) | 機械学習 / 強化学習 / エッジコンピューティング |
キーワード(英) | |
資料番号 | VLD2019-68,CPSY2019-66,RECONF2019-58 |
発行日 | 2020-01-15 (VLD, CPSY, RECONF) |
研究会情報 | |
研究会 | IPSJ-SLDM / RECONF / VLD / CPSY / IPSJ-ARC |
---|---|
開催期間 | 2020/1/22(から3日開催) |
開催地(和) | 慶応義塾大学 日吉キャンパス 来往舎 |
開催地(英) | Raiosha, Hiyoshi Campus, Keio University |
テーマ(和) | FPGA応用および一般 |
テーマ(英) | FPGA Applications, etc. |
委員長氏名(和) | 田宮 豊(富士通研) / 柴田 裕一郎(長崎大) / 戸川 望(早大) / 入江 英嗣(東大) / 井上 弘士(九大) |
委員長氏名(英) | Yutaka Tamiya(Fujitsu Lab.) / Yuichiro Shibata(Nagasaki Univ.) / Nozomu Togawa(Waseda Univ.) / Hidetsugu Irie(Univ. of Tokyo) / Hiroshi Inoue(Kyushu Univ.) |
副委員長氏名(和) | / 佐野 健太郎(理研) / 山口 佳樹(筑波大) / 福田 大輔(富士通研) / 鯉渕 道紘(NII) / 中島 耕太(富士通研) |
副委員長氏名(英) | / Kentaro Sano(RIKEN) / Yoshiki Yamaguchi(Tsukuba Univ.) / Daisuke Fukuda(Fujitsu Labs.) / Michihiro Koibuchi(NII) / Kota Nakajima(Fujitsu Lab.) |
幹事氏名(和) | 土谷 亮(滋賀県大) / 岩崎 裕江(NTT) / 佐々木 通(三菱電機) / 谷川 一哉(広島市大) / 三好 健文(イーツリーズ・ジャパン) / 小平 行秀(会津大) / 桜井 祐市(日立) / 津邑 公暁(名工大) / 高前田 伸也(北大) / 近藤 正章(東大) / 塩谷 亮太(名大) / 田中 美帆(富士通研) / 長谷川 揚平(東芝メモリ) |
幹事氏名(英) | Akira Tsuchiya(Univ. Shiga Prefecture) / Hiroe Iwasaki(NTT) / Toru Sasaki(Mitsubishi Electric) / Kazuya Tanigawa(Hiroshima City Univ.) / Takefumi Miyoshi(e-trees.Japan) / Yukihide Kohira(Univ. of Aizu) / Yuichi Sakurai(Hitachi) / Tomoaki Tsumura(Nagoya Inst. of Tech.) / Shinya Takameda(Hokkaido Univ.) / Masaaki Kondo(Univ. of Tokyo) / Ryota Shioya(Nagoya Univ.) / Miho Tanaka(Fujitsu Labs.) / Yohei Hasegawa(Toshiba Memory) |
幹事補佐氏名(和) | / 小林 悠記(NEC) / 中原 啓貴(東工大) / 池田 一樹(日立) / 有間 英志(東大) / 小川 周吾(日立) |
幹事補佐氏名(英) | / Yuuki Kobayashi(NEC) / Hiroki Nakahara(Tokyo Inst. of Tech.) / Kazuki Ikeda(Hitachi) / Eiji Arima(Univ. of Tokyo) / Shugo Ogawa(Hitachi) |
講演論文情報詳細 | |
申込み研究会 | Special Interest Group on System and LSI Design Methodology / Technical Committee on Reconfigurable Systems / Technical Committee on VLSI Design Technologies / Technical Committee on Computer Systems / Special Interest Group on System Architecture |
---|---|
本文の言語 | JPN |
タイトル(和) | オンライン逐次学習アルゴリズムを用いた強化学習の軽量化 |
サブタイトル(和) | |
タイトル(英) | A Light-Weight Reinforcement Learning using Online Sequential Learning |
サブタイトル(和) | |
キーワード(1)(和/英) | 機械学習 |
キーワード(2)(和/英) | 強化学習 |
キーワード(3)(和/英) | エッジコンピューティング |
第 1 著者 氏名(和/英) | 渡邉 寛悠 / Hirohisa Watanabe |
第 1 著者 所属(和/英) | 慶應義塾大学(略称:慶大) Keio University(略称:Keio Univ.) |
第 2 著者 氏名(和/英) | 塚田 峰登 / Mineto Tsukada |
第 2 著者 所属(和/英) | 慶應義塾大学(略称:慶大) Keio University(略称:Keio Univ.) |
第 3 著者 氏名(和/英) | 松谷 宏紀 / Hiroki Matsutani |
第 3 著者 所属(和/英) | 慶應義塾大学(略称:慶大) Keio University(略称:Keio Univ.) |
発表年月日 | 2020-01-23 |
資料番号 | VLD2019-68,CPSY2019-66,RECONF2019-58 |
巻番号(vol) | vol.119 |
号番号(no) | VLD-371,CPSY-372,RECONF-373 |
ページ範囲 | pp.85-90(VLD), pp.85-90(CPSY), pp.85-90(RECONF), |
ページ数 | 6 |
発行日 | 2020-01-15 (VLD, CPSY, RECONF) |