講演抄録/キーワード |
講演名 |
2016-08-09 11:15
パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション ○黎 明曦(筑波大)・谷村勇輔・中田秀基(産総研) CPSY2016-20 DC2016-17 |
抄録 |
(和) |
大規模なデータを対象とする機械学習システムの高速化には並列化が必須である。パラメータサーバと多数のワーカ計算機を用いるデータ並列機械学習システムにおいては、一般の大規模システムと同様に耐故障性が問題になるが、並列機械学習システムにおける耐故障性の議論は進んでいない。本稿ではパラメータサーバを用いた並列機械学習システムにおける耐故障性に関して議論し、シミュレーションを用いて大規模なシステムにおける定量的な評価を行う。その結果、パラメータサーバ上の情報を用いることでチェックポイントのコストを大幅に低減することができること、さらには、収束への悪影響を許容すれば、チェックポイントからのリカバリコストも低減できることを明らかにした。 |
(英) |
Parallel computation is essential for machine learning systems to be more faster.
There are two techniques to build parallel machine learning systems; namely data parallel method and model parallel method. In this paper, we only discuss data parallel where large number of parameter servers and computation servers communicate each other to perform computation. Fault tolerancy is a big problem on large scale computation system in general, however, there are not much discussions about the fault folerancy of parallel machine learning system. in this paper, we discuss the fault tolerancy of parallel machine learning systems which use parameter servers. Parameter servers gives extra redundancy to the system and could double as the checkpoint server. We also quantitatively evaluate several fault tolerance method using parallel environment simulator SimGrid. |
キーワード |
(和) |
耐故障性 / パラメータサーバ / 機械学習 / シミュレーション / 分散システム / / / |
(英) |
Fault Tolerancy / Parameter Server / Machine Learning / Simulations / Distributed Systems / / / |
文献情報 |
信学技報, vol. 116, no. 177, CPSY2016-20, pp. 125-130, 2016年8月. |
資料番号 |
CPSY2016-20 |
発行日 |
2016-08-01 (CPSY), 2016-08-02 (DC) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
CPSY2016-20 DC2016-17 |