電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2019-03-06 10:30
ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析
古庄泰隆池田和司奈良先端大
技報オンラインサービス実施中
抄録 (和) 一般的に大きすぎる学習モデルは訓練データに過学習するが,驚くべきことに活性化関数にReLU関数を持つニューラルネットワークでは次の逆の結果が得られる.
隠れ層のユニット数を増やす程,訓練誤差はもちろん小さくなるが,驚くべきことに訓練誤差とテスト誤差のギャップも小さくなる.
本研究ではこのメカニズムを明らかにするため,隠れ層によって変換された特徴ベクトルのクラス内分散とクラス間分散に注目し次の結果を得た.
重みがランダムなニューラルネットワークでは隠れ層のユニット数を増やす程,隠れ層の変換により得られる特徴ベクトルのクラス内分散は小さくなり,クラス間分散は大きくなる.
この性質により幅の広いニューラルネットワークは小さな訓練誤差,そして小さなギャップを達成することを示すことができる.
数値実験でも上記の理論的性質が成り立ち,さらに学習後のネットワークにも我々の理論が適用できることを確認した. 
(英) Model size determination is important in machine learning since a larger model leads to overfitting, that is, a small training loss and a high test loss. Surprisingly, a multi-layer perceptron (MLP) with the ReLU activation function has a smaller training loss as well as a smaller gap between the training loss and a test loss as each layer gets wide.
To elucidate the mechanism, this paper theoretically derives an upper-bound of the gap for a random network and shows a wider MLP has a smaller gap.
Our numerical experiments confirmed the validity of our analysis and the applicability to the trained model.
キーワード (和) ニューラルネットワーク / モデルサイズ / 過学習 / 汎化能力 / / / /  
(英) Neural networks / model size / over-fitting / generalization ability / / / /  
文献情報 信学技報, vol. 118, no. 472, IBISML2018-111, pp. 45-50, 2019年3月.
資料番号 IBISML2018-111 
発行日 2019-02-26 (IBISML) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380

研究会情報
研究会 IBISML  
開催期間 2019-03-05 - 2019-03-06 
開催地(和) 理研AIP 
開催地(英) RIKEN AIP 
テーマ(和) 機械学習一般 
テーマ(英) Machine learning, etc. 
講演論文情報の詳細
申込み研究会 IBISML 
会議コード 2019-03-IBISML 
本文の言語 日本語 
タイトル(和) ニューラルネットワークの隠れ層のユニット数とReLU関数が汎化能力に与える影響の理論解析 
サブタイトル(和)  
タイトル(英) Wider neural networks with ReLU activation generalize better 
サブタイトル(英)  
キーワード(1)(和/英) ニューラルネットワーク / Neural networks  
キーワード(2)(和/英) モデルサイズ / model size  
キーワード(3)(和/英) 過学習 / over-fitting  
キーワード(4)(和/英) 汎化能力 / generalization ability  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 古庄 泰隆 / Yasutaka Furusho /
第1著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第2著者 氏名(和/英/ヨミ) 池田 和司 / Kazushi Ikeda / イケダ カズシ
第2著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2019-03-06 10:30:00 
発表時間 30 
申込先研究会 IBISML 
資料番号 IEICE-IBISML2018-111 
巻番号(vol) IEICE-118 
号番号(no) no.472 
ページ範囲 pp.45-50 
ページ数 IEICE-6 
発行日 IEICE-IBISML-2019-02-26 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会