講演名 2017-07-27
A study on Network Structure and Parameter Exchange Method in large-scale Cluster for Machine Learning
張 舵(筑波大), 黎 明曦(筑波大), 谷村 勇輔(産総研), 中田 秀基(産総研),
PDFダウンロードページ PDFダウンロードページへ
抄録(和)
抄録(英) For modern machine learning systems, including deep learning systems, parallelization is inevitable since they are required to process massive amount of training data. One of the hot area of this area is the data parallel learning where multiple nodes cooperate each other exchanging parameter / gradient periodically. In this paper, we focus on the network resource requirement for this kind of application. We investigate 3-layered Clos network and omega-network adding to the 2-layered fat tree network which we have already reported. As parameter exchange method, we tested direct parameter exchange method and centralized server method. We evaluated these three types of network with SimGrid, a simulator for distributed environment, and confirmed that with suitable parameter exchange methods, we can maintain performance with higher over subscription factor.
キーワード(和)
キーワード(英) Machine learningParameter ServerSimulationClos network
資料番号 CPSY2017-29
発行日 2017-07-19 (CPSY)

研究会情報
研究会 CPSY / DC / IPSJ-ARC
開催期間 2017/7/26(から3日開催)
開催地(和) 秋田アトリオンビル(秋田)
開催地(英) Akita Atorion-Building (Akita)
テーマ(和) 並列/分散/協調とディペンダブルコンピューティングおよび一般
テーマ(英) Parallel, Distributed and Cooperative Processing
委員長氏名(和) 中野 浩嗣(広島大) / 井上 美智子(奈良先端大)
委員長氏名(英) Koji Nakano(Hiroshima Univ.) / Michiko Inoue(NAIST)
副委員長氏名(和) 入江 英嗣(東大) / 三吉 貴史(富士通研) / 福本 聡(首都大東京)
副委員長氏名(英) Hidetsugu Irie(Univ. of Tokyo) / Takashi Miyoshi(Fujitsu) / Satoshi Fukumoto(Tokyo Metropolitan Univ.)
幹事氏名(和) 大川 猛(宇都宮大) / 高前田 伸也(北大) / 吉村 正義(京都産大) / 金子 晴彦(東工大)
幹事氏名(英) Takeshi Ohkawa(Utsunomiya Univ.) / Shinya Takameda(Hokkaido Univ.) / Masayoshi Yoshimura(Kyoto Sangyo Univ.) / Haruhiko Kaneko(Tokyo Inst. of Tech.)
幹事補佐氏名(和) 伊藤 靖朗(広島大) / 津邑 公暁(名工大) / 新井 雅之(日大)
幹事補佐氏名(英) Yasuaki Ito(Hiroshima Univ.) / Tomoaki Tsumura(Nagoya Inst. of Tech.) / Masayuki Arai(Nihon Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Computer Systems / Technical Committee on Dependable Computing / Special Interest Group on System Architecture
本文の言語 ENG
タイトル(和)
サブタイトル(和)
タイトル(英) A study on Network Structure and Parameter Exchange Method in large-scale Cluster for Machine Learning
サブタイトル(和)
キーワード(1)(和/英) / Machine learningParameter ServerSimulationClos network
第 1 著者 氏名(和/英) 張 舵 / Duo Zhang
第 1 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ. of Tsukuba)
第 2 著者 氏名(和/英) 黎 明曦 / Mingxi Li
第 2 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ. of Tsukuba)
第 3 著者 氏名(和/英) 谷村 勇輔 / Yusuke Tanimura
第 3 著者 所属(和/英) 産業技術総合研究所(略称:産総研)
National Institute of Advanced Industrial Science and Technology(略称:AIST)
第 4 著者 氏名(和/英) 中田 秀基 / Hidemoto Nakada
第 4 著者 所属(和/英) 産業技術総合研究所(略称:産総研)
National Institute of Advanced Industrial Science and Technology(略称:AIST)
発表年月日 2017-07-27
資料番号 CPSY2017-29
巻番号(vol) vol.117
号番号(no) CPSY-153
ページ範囲 pp.145-150(CPSY),
ページ数 6
発行日 2017-07-19 (CPSY)