大規模グラフの逐次集約による並列分散クラスタリングアルゴリズムのApache Spark上への実装

浅山 陸; 櫻井 孝平; 山根 智

講演名	2016-01-26 大規模グラフの逐次集約による並列分散クラスタリングアルゴリズムのApache Spark上への実装浅山陸(金沢大), 櫻井孝平(金沢大), 山根智(金沢大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	大規模なグラフ構造データに対して，ノード分割による分散配置とノードの逐次集約の並列処理による高速なクラスタリングアルゴリズムを提案する．グラフ構造データに対するクラスタリング処理の並列分散化については，BSPモデルに基づいたY．Zhangらによる研究がよく知られている．しかしながら，Y．Zhangらによる手法では，BSPモデルの同期やメモリ上の制限により大きな処理待ち時間が発生する．そこで本論文では，大規模なグラフ構造データを複数のマシン上に分散配置し，それらに対してノードの逐次集約の並列処理及びModularityに基づくクラスタリングアルゴリズムを適用することで，Modularity値を維持したクラスタリング処理の高速化を目指した．具体的には，本手法を構成する複数の処理をApache Spark上で並列分散化することにより，大規模なグラフ構造データに対するクラスタリング処理に要する時間を高速化したことを示す．
抄録(英)	In this paper, we propose the rapid clustering method with the large-scaled graph structured data. Our approach is a data parallel distributed clustering algorithm that is based on node partition and aggregation. The goal of this paper is to efficiently extract communities with high modularity from unprecedented size of graphs that have more than a few billion edges. We show the overview of the proposed method, and we describe details of three processes.
キーワード(和)	ビッグデータ / グラフ構造データ / クラスタリング / 並列分散処理
キーワード(英)	Big Data / Graph Structured Data / Clustering / Parallel Distributed Processing
資料番号	MSS2015-60,SS2015-69
発行日	2016-01-18 (MSS, SS)

研究会情報
研究会	SS / MSS
開催期間	2016/1/25(から2日開催)
開催地（和）	しいのき迎賓館セミナールームB
開催地（英）	Shiinoki-Geihin-Kan
テーマ（和）	一般
テーマ（英）
委員長氏名（和）	結縁祥治(名大) / 山根智(金沢大)
委員長氏名（英）	Shoji Yuen(Nagoya Univ.) / Satoshi Yamane(Kanazawa Univ.)
副委員長氏名（和）	緒方和博(北陸先端大) / 名嘉村盛和(琉球大)
副委員長氏名（英）	Kazuhiro Ogata(JAIST) / Morikazu Nakamura(Univ. of Ryukyus)
幹事氏名（和）	小林隆志(東工大) / 鷲崎弘宜(早大) / 中田充(山口大) / 豊嶋伊知郎(東芝)
幹事氏名（英）	Takashi Kobayashi(Tokyo Inst. of Tech.) / Hironobu Washizaki(Waseda Univ.) / Mitsuru Nakata(Yamaguchi Univ.) / Ichiro Toyoshima(Toshiba)
幹事補佐氏名（和）	肥後芳樹(阪大) / 金城秀樹(沖縄大)
幹事補佐氏名（英）	Yoshiki Higo(Osaka Univ.) / Hideki Kinjo(Okinawa Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Software Science / Technical Committee on Mathematical Systems Science and its applications
本文の言語	JPN
タイトル（和）	大規模グラフの逐次集約による並列分散クラスタリングアルゴリズムのApache Spark上への実装
サブタイトル（和）
タイトル（英）	Implementation of Parallel Distributed Graph Clustering Algorithm on Apache Spark with Node Partition and Aggregation in Large-Scale Graphs
サブタイトル（和）
キーワード(1)（和/英）	ビッグデータ / Big Data
キーワード(2)（和/英）	グラフ構造データ / Graph Structured Data
キーワード(3)（和/英）	クラスタリング / Clustering
キーワード(4)（和/英）	並列分散処理 / Parallel Distributed Processing
第 1 著者氏名（和/英）	浅山陸 / Riku Asayama
第 1 著者所属（和/英）	金沢大学(略称：金沢大) Kanazawa University(略称：Kanazawa Univ.)
第 2 著者氏名（和/英）	櫻井孝平 / Kohei Sakurai
第 2 著者所属（和/英）	金沢大学(略称：金沢大) Kanazawa University(略称：Kanazawa Univ.)
第 3 著者氏名（和/英）	山根智 / Satoshi Yamane
第 3 著者所属（和/英）	金沢大学(略称：金沢大) Kanazawa University(略称：Kanazawa Univ.)
発表年月日	2016-01-26
資料番号	MSS2015-60,SS2015-69
巻番号（vol）	vol.115
号番号（no）	MSS-419,SS-420
ページ範囲	pp.141-146(MSS), pp.141-146(SS),
ページ数	6
発行日	2016-01-18 (MSS, SS)