講演名 2003/7/10
EP-growth並列化による頻出パターン抽出高速化(パターン抽出)(「夏のデータベースワークショップ(DBWS2003)」一般)
岩橋 永悟, 山名 早人,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。 2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する。本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた。また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。
抄録(英) Frequent patterns mining is one of the important problem in data mining research. The Apriori is a prominent algorithm followed by many variants. In 2000, the FP-growth, which is reported to be faster than the Apriori, was proposed. However, many parallel algorithms of frequent pattern mining are still based on the Apriori. In this paper, we propose a parallelized version of the FP-growth, which accesses disks in parallel and constructs local FP-trees on each local memory. As a result of the evaluation using 32 node PC cluster, our method is approximately 2 and 130 times faster than sequential FP-growth, when minimum support is 0.25% and 2%, respectively.
キーワード(和) データマイニング / 頻出パターン / 並列処理 / FP-growth / PCクラスタ
キーワード(英) Data Mining / Frequent Pattern / Parallel Processing / FP-growth / PC Cluster
資料番号 DE2003-50
発行日

研究会情報
研究会 DE
開催期間 2003/7/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) EP-growth並列化による頻出パターン抽出高速化(パターン抽出)(「夏のデータベースワークショップ(DBWS2003)」一般)
サブタイトル(和)
タイトル(英) Parallel FP-growth Algorithm for Frequent Pattern Mining
サブタイトル(和)
キーワード(1)(和/英) データマイニング / Data Mining
キーワード(2)(和/英) 頻出パターン / Frequent Pattern
キーワード(3)(和/英) 並列処理 / Parallel Processing
キーワード(4)(和/英) FP-growth / FP-growth
キーワード(5)(和/英) PCクラスタ / PC Cluster
第 1 著者 氏名(和/英) 岩橋 永悟 / Eigo IWAHASHI
第 1 著者 所属(和/英) 早稲田大学大学院理工学研究科
Graduate School of Science and Engineering, Waseda University
第 2 著者 氏名(和/英) 山名 早人 / Hayato YAMANA
第 2 著者 所属(和/英) 早稲田大学理工学部
Faculty of Science and Engineering, Waseda University
発表年月日 2003/7/10
資料番号 DE2003-50
巻番号(vol) vol.103
号番号(no) 191
ページ範囲 pp.-
ページ数 6
発行日