講演名 2019-03-06
ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析
古庄 泰隆(奈良先端大), 池田 和司(奈良先端大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 一般的に大きすぎる学習モデルは訓練データに過学習するが,驚くべきことに活性化関数にReLU関数を持つニューラルネットワークでは次の逆の結果が得られる. 隠れ層のユニット数を増やす程,訓練誤差はもちろん小さくなるが,驚くべきことに訓練誤差とテスト誤差のギャップも小さくなる. 本研究ではこのメカニズムを明らかにするため,隠れ層によって変換された特徴ベクトルのクラス内分散とクラス間分散に注目し次の結果を得た. 重みがランダムなニューラルネットワークでは隠れ層のユニット数を増やす程,隠れ層の変換により得られる特徴ベクトルのクラス内分散は小さくなり,クラス間分散は大きくなる. この性質により幅の広いニューラルネットワークは小さな訓練誤差,そして小さなギャップを達成することを示すことができる. 数値実験でも上記の理論的性質が成り立ち,さらに学習後のネットワークにも我々の理論が適用できることを確認した.
抄録(英) Model size determination is important in machine learning since a larger model leads to overfitting, that is, a small training loss and a high test loss. Surprisingly, a multi-layer perceptron (MLP) with the ReLU activation function has a smaller training loss as well as a smaller gap between the training loss and a test loss as each layer gets wide. To elucidate the mechanism, this paper theoretically derives an upper-bound of the gap for a random network and shows a wider MLP has a smaller gap. Our numerical experiments confirmed the validity of our analysis and the applicability to the trained model.
キーワード(和) ニューラルネットワーク / モデルサイズ / 過学習 / 汎化能力
キーワード(英) Neural networks / model size / over-fitting / generalization ability
資料番号 IBISML2018-111
発行日 2019-02-26 (IBISML)

研究会情報
研究会 IBISML
開催期間 2019/3/5(から2日開催)
開催地(和) 理研AIP
開催地(英) RIKEN AIP
テーマ(和) 機械学習一般
テーマ(英) Machine learning, etc.
委員長氏名(和) 鹿島 久嗣(京大)
委員長氏名(英) Hisashi Kashima(Kyoto Univ.)
副委員長氏名(和) 杉山 将(東大) / 津田 宏治(東大)
副委員長氏名(英) Masashi Sugiyama(Univ. of Tokyo) / Koji Tsuda(Univ. of Tokyo)
幹事氏名(和) 竹内 一郎(名工大) / 神嶌 敏弘(産総研)
幹事氏名(英) Ichiro Takeuchi(Nagoya Inst. of Tech.) / Toshihiro Kamishima(AIST)
幹事補佐氏名(和) 岩田 具治(NTT) / 大羽 成征(京大)
幹事補佐氏名(英) Tomoharu Iwata(NTT) / Shigeyuki Oba(Kyoto Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Infomation-Based Induction Sciences and Machine Learning
本文の言語 JPN
タイトル(和) ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析
サブタイトル(和)
タイトル(英) Wider neural networks with ReLU activation generalize better
サブタイトル(和)
キーワード(1)(和/英) ニューラルネットワーク / Neural networks
キーワード(2)(和/英) モデルサイズ / model size
キーワード(3)(和/英) 過学習 / over-fitting
キーワード(4)(和/英) 汎化能力 / generalization ability
第 1 著者 氏名(和/英) 古庄 泰隆 / Yasutaka Furusho
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学(略称:奈良先端大)
Nara Institute of Science and Technology(略称:NAIST)
第 2 著者 氏名(和/英) 池田 和司 / Kazushi Ikeda
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学(略称:奈良先端大)
Nara Institute of Science and Technology(略称:NAIST)
発表年月日 2019-03-06
資料番号 IBISML2018-111
巻番号(vol) vol.118
号番号(no) IBISML-472
ページ範囲 pp.45-50(IBISML),
ページ数 6
発行日 2019-02-26 (IBISML)