講演名 2016-01-26
大規模グラフの逐次集約による並列分散クラスタリングアルゴリズムのApache Spark上への実装
浅山 陸(金沢大), 櫻井 孝平(金沢大), 山根 智(金沢大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 大規模なグラフ構造データに対して,ノード分割による分散配置とノードの逐次集約の並列処理による高速なクラスタリングアルゴリズムを提案する.グラフ構造データに対するクラスタリング処理の並列分散化については,BSPモデルに基づいたY.Zhangらによる研究がよく知られている.しかしながら,Y.Zhangらによる手法では,BSPモデルの同期やメモリ上の制限により大きな処理待ち時間が発生する.そこで本論文では,大規模なグラフ構造データを複数のマシン上に分散配置し,それらに対してノードの逐次集約の並列処理及びModularityに基づくクラスタリングアルゴリズムを適用することで,Modularity値を維持したクラスタリング処理の高速化を目指した.具体的には,本手法を構成する複数の処理をApache Spark上で並列分散化することにより,大規模なグラフ構造データに対するクラスタリング処理に要する時間を高速化したことを示す.
抄録(英) In this paper, we propose the rapid clustering method with the large-scaled graph structured data. Our approach is a data parallel distributed clustering algorithm that is based on node partition and aggregation. The goal of this paper is to efficiently extract communities with high modularity from unprecedented size of graphs that have more than a few billion edges. We show the overview of the proposed method, and we describe details of three processes.
キーワード(和) ビッグデータ / グラフ構造データ / クラスタリング / 並列分散処理
キーワード(英) Big Data / Graph Structured Data / Clustering / Parallel Distributed Processing
資料番号 MSS2015-60,SS2015-69
発行日 2016-01-18 (MSS, SS)

研究会情報
研究会 SS / MSS
開催期間 2016/1/25(から2日開催)
開催地(和) しいのき迎賓館 セミナールームB
開催地(英) Shiinoki-Geihin-Kan
テーマ(和) 一般
テーマ(英)
委員長氏名(和) 結縁 祥治(名大) / 山根 智(金沢大)
委員長氏名(英) Shoji Yuen(Nagoya Univ.) / Satoshi Yamane(Kanazawa Univ.)
副委員長氏名(和) 緒方 和博(北陸先端大) / 名嘉村 盛和(琉球大)
副委員長氏名(英) Kazuhiro Ogata(JAIST) / Morikazu Nakamura(Univ. of Ryukyus)
幹事氏名(和) 小林 隆志(東工大) / 鷲崎 弘宜(早大) / 中田 充(山口大) / 豊嶋 伊知郎(東芝)
幹事氏名(英) Takashi Kobayashi(Tokyo Inst. of Tech.) / Hironobu Washizaki(Waseda Univ.) / Mitsuru Nakata(Yamaguchi Univ.) / Ichiro Toyoshima(Toshiba)
幹事補佐氏名(和) 肥後 芳樹(阪大) / 金城 秀樹(沖縄大)
幹事補佐氏名(英) Yoshiki Higo(Osaka Univ.) / Hideki Kinjo(Okinawa Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Software Science / Technical Committee on Mathematical Systems Science and its applications
本文の言語 JPN
タイトル(和) 大規模グラフの逐次集約による並列分散クラスタリングアルゴリズムのApache Spark上への実装
サブタイトル(和)
タイトル(英) Implementation of Parallel Distributed Graph Clustering Algorithm on Apache Spark with Node Partition and Aggregation in Large-Scale Graphs
サブタイトル(和)
キーワード(1)(和/英) ビッグデータ / Big Data
キーワード(2)(和/英) グラフ構造データ / Graph Structured Data
キーワード(3)(和/英) クラスタリング / Clustering
キーワード(4)(和/英) 並列分散処理 / Parallel Distributed Processing
第 1 著者 氏名(和/英) 浅山 陸 / Riku Asayama
第 1 著者 所属(和/英) 金沢大学(略称:金沢大)
Kanazawa University(略称:Kanazawa Univ.)
第 2 著者 氏名(和/英) 櫻井 孝平 / Kohei Sakurai
第 2 著者 所属(和/英) 金沢大学(略称:金沢大)
Kanazawa University(略称:Kanazawa Univ.)
第 3 著者 氏名(和/英) 山根 智 / Satoshi Yamane
第 3 著者 所属(和/英) 金沢大学(略称:金沢大)
Kanazawa University(略称:Kanazawa Univ.)
発表年月日 2016-01-26
資料番号 MSS2015-60,SS2015-69
巻番号(vol) vol.115
号番号(no) MSS-419,SS-420
ページ範囲 pp.141-146(MSS), pp.141-146(SS),
ページ数 6
発行日 2016-01-18 (MSS, SS)