講演抄録/キーワード |
講演名 |
2012-10-12 15:30
PrefixSpan法のMapReduce実装の改良 中田秀基(産総研)・井上辰彦(産総研/創夢)・○小川宏高・工藤知宏(産総研) CPSY2012-40 |
抄録 |
(和) |
分散キーバリューストアをベースとし、Owner Computeルールで計算を実行することで、高速な繰り返し処理を可能とするMapReduce処理系SSSを開発している。このSSSの評価の一つとして、PrefixSpan法による系列パターン抽出を実世界アプリケーションとして利用して来た。しかし、既存の手法では大規模なデータに対しては十分な絶対性能が得られていなかった。本稿ではPrefixSpanをMapReduceで実装するための新たな手法を提案する。提案手法ではデータの流れを見直すことによって、これまでReduceで行なっていた処理を、Mapに移すことによって大幅な速度の向上を得た。具体的には4Mのソースコードのデータに対してSSSで約60倍、Hadoopで約3倍の高速化を実現した。 |
(英) |
We have been implementing a Key-Value Store based MapReduce System, called SSS, which enables quick MapReduce iteration by employing Owner-Compute Rule. We have been employing sequential pattern mining using PrefixSpan method as an evaluation target. The performance so far was not satisfactory for large sized data, however. This paper proposes a new implementation technique for PrefixSpan method over MapReduce. In the proposed method, we moved bound operation from Reducer to Mapper, eliminating data transfer cost between Mapper and Reducer. As a result we confirmed that the new technique showed 60 times speedup for SSS and 3 times speedup for Hadoop. |
キーワード |
(和) |
マップリデュース / キーバリューストア / 分散並列計算 / 系列パターンマイニング / PrefixSpan / / / |
(英) |
MapReduce / Key-Value Store / Distributed Parallel Computing / Sequential Pattern Mining / PrefixSpan / / / |
文献情報 |
信学技報, vol. 112, no. 237, CPSY2012-40, pp. 55-60, 2012年10月. |
資料番号 |
CPSY2012-40 |
発行日 |
2012-10-05 (CPSY) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
CPSY2012-40 |