講演名 2020-09-10
通信効率の高い分散深層学習を実現するGPU-FPGAヘテロコンピューティング
田仲 顕至(NTT), 有川 勇輝(NTT), 伊藤 猛(NTT), 森田 和孝(NTT), 根本 成(NTT), 三浦 史光(NTT), 寺田 和彦(NTT), 寺本 純司(NTT), 坂本 健(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 分散深層学習において、学習結果のGPU間での共有に用いられる集団通信(Allreduce)は大きなボトルネックになる。提案システムでは、Allreduce機能を備えたネットワークインターフェイスカード(NIC)をFPGAで作成し、GPUとFPGA間のリモートダイレクトメモリアクセス(RDMA)用のデバイスドライバを開発した。提案システムと、従来のRDMAシステムを比較した結果、通信オーバヘッドの9割を隠蔽し、スケーラビリティを2割向上させることができた。ResNet-50モデルに、ImageNetをエンドツーエンドで学習させる時間は、精度を低下させることなく87.3 %に短縮できた。
抄録(英) In distributed deep learning (DL), collective communication (Allreduce) used to share training results between GPUs is a bottleneck. We develop a network interface card (NIC) implementing the Allreduce circuit in FPGA and a device driver for remote direct memory access (RDMA) between GPU and FPGA. A comparison of our system with a conventional RDMA system shows that our system can also conceal about 90 % of the communication overhead and improve scalability by 20 %. The end-to-end time consumed for training in distributed DL with ResNet-50 and ImageNet is reduced to 87.3 % without any degradation in validation accuracy.
キーワード(和) 分散深層学習 / 並列コンピューティング / ヘテロジニアスコンピューティング / FPGA
キーワード(英) Distributed Deep Learning / Parallel Computing / Heterogeneous Computing / FPGA
資料番号 RECONF2020-19
発行日 2020-09-03 (RECONF)

研究会情報
研究会 RECONF
開催期間 2020/9/10(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) リコンフィギャラブルシステム,一般
テーマ(英) Reconfigurable system, etc.
委員長氏名(和) 柴田 裕一郎(長崎大)
委員長氏名(英) Yuichiro Shibata(Nagasaki Univ.)
副委員長氏名(和) 佐野 健太郎(理研) / 山口 佳樹(筑波大)
副委員長氏名(英) Kentaro Sano(RIKEN) / Yoshiki Yamaguchi(Tsukuba Univ.)
幹事氏名(和) 三好 健文(イーツリーズ・ジャパン) / 小林 悠記(NEC)
幹事氏名(英) Takefumi Miyoshi(e-trees.Japan) / Yuuki Kobayashi(NEC)
幹事補佐氏名(和) 中原 啓貴(東工大) / 竹村 幸尚(インテル)
幹事補佐氏名(英) Hiroki Nakahara(Tokyo Inst. of Tech.) / Yukitaka Takemura(INTEL)

講演論文情報詳細
申込み研究会 Technical Committee on Reconfigurable Systems
本文の言語 JPN
タイトル(和) 通信効率の高い分散深層学習を実現するGPU-FPGAヘテロコンピューティング
サブタイトル(和)
タイトル(英) With GPU-FPGA Heterogeneous computing, Highly Effective Communication for Distributed Deep Learning
サブタイトル(和)
キーワード(1)(和/英) 分散深層学習 / Distributed Deep Learning
キーワード(2)(和/英) 並列コンピューティング / Parallel Computing
キーワード(3)(和/英) ヘテロジニアスコンピューティング / Heterogeneous Computing
キーワード(4)(和/英) FPGA / FPGA
第 1 著者 氏名(和/英) 田仲 顕至 / Kenji Tanaka
第 1 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
第 2 著者 氏名(和/英) 有川 勇輝 / Yuki Arikawa
第 2 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
第 3 著者 氏名(和/英) 伊藤 猛 / Tsuyoshi Ito
第 3 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
第 4 著者 氏名(和/英) 森田 和孝 / Kazutaka Morita
第 4 著者 所属(和/英) NTT ソフトウェアイノベーションセンター(略称:NTT)
NTT Software Innovation Center(略称:NTT)
第 5 著者 氏名(和/英) 根本 成 / Naru Nemoto
第 5 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
第 6 著者 氏名(和/英) 三浦 史光 / Fumiaki Miura
第 6 著者 所属(和/英) NTT ソフトウェアイノベーションセンター(略称:NTT)
NTT Software Innovation Center(略称:NTT)
第 7 著者 氏名(和/英) 寺田 和彦 / Kazuhiko Terada
第 7 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
第 8 著者 氏名(和/英) 寺本 純司 / Junji Teramoto
第 8 著者 所属(和/英) NTT ソフトウェアイノベーションセンター(略称:NTT)
NTT Software Innovation Center(略称:NTT)
第 9 著者 氏名(和/英) 坂本 健 / Takashi Sakamoto
第 9 著者 所属(和/英) NTT 先端集積デバイス研究所(略称:NTT)
NTT Device Technology Laboratories(略称:NTT)
発表年月日 2020-09-10
資料番号 RECONF2020-19
巻番号(vol) vol.120
号番号(no) RECONF-168
ページ範囲 pp.1-6(RECONF),
ページ数 6
発行日 2020-09-03 (RECONF)