講演名 2007-07-03
垂直分割に基づいた超高次元データからの並列頻出パターン発見手法(高次元データ,夏のデータベースワークショップ2007(データ工学,一般))
森 紘一郎, 折原 良平,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来の並列頻出パターン発見手法は,レコード数が非常に大きなデータに対し,データを水平分割して各計算機に割り当てる手法が一般的であった.しかし,近年,属性数が非常に大きな超高次元データからの頻出パターン発見が重要になってきた.このようなデータには,従来の水平分割に基づいた並列化手法では対応できない.本論文では,データの垂直分割とレコード空間探索を組合せた並列アルゴリズムが超高次元データの頻出パターン発見に有効であることを示す.提案手法を現実のマイクロアレイデータセットを用いて評価したところ16台で約13倍の速度向上が達成できた.
抄録(英) In general, traditional parallel frequent pattern mining methods were applied to data that contains a large number of records. The data was horizontally partitioned and each partitioned data was allocated to processing elements. However recently, frequent pattern mining from super-high-dimensional data that contains a huge number of attributes is becoming important. The traditional parallel frequent pattern mining methods cannot handle these data. In this paper, we show that the combination of vertical partitioning and record space search is efficient for parallel frequent pattern mining of high-dimensional data. We evaluate our method with real microarray dataset on 16 PCs to discover that it is approximately 13 times faster than sequential one.
キーワード(和) データマイニング / 相関ルール / 頻出パターン / 高次元データ / 垂直分割 / 並列計算
キーワード(英) Data Mining / Association Rule / Frequent Pattern / High Dimensional Data / Vertical Partitioning / Parallel Processing
資料番号 DE2007-91
発行日

研究会情報
研究会 DE
開催期間 2007/6/25(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 垂直分割に基づいた超高次元データからの並列頻出パターン発見手法(高次元データ,夏のデータベースワークショップ2007(データ工学,一般))
サブタイトル(和)
タイトル(英) Parallel Frequent Pattern Mining Method from Super-High-Dimensional Data by Vertical Partitioning
サブタイトル(和)
キーワード(1)(和/英) データマイニング / Data Mining
キーワード(2)(和/英) 相関ルール / Association Rule
キーワード(3)(和/英) 頻出パターン / Frequent Pattern
キーワード(4)(和/英) 高次元データ / High Dimensional Data
キーワード(5)(和/英) 垂直分割 / Vertical Partitioning
キーワード(6)(和/英) 並列計算 / Parallel Processing
第 1 著者 氏名(和/英) 森 紘一郎 / Kouichirou MORI
第 1 著者 所属(和/英) 株式会社東芝研究開発センター
Research & Development Center, Toshiba Corporation
第 2 著者 氏名(和/英) 折原 良平 / Ryohei ORIHARA
第 2 著者 所属(和/英) 株式会社東芝研究開発センター
Research & Development Center, Toshiba Corporation
発表年月日 2007-07-03
資料番号 DE2007-91
巻番号(vol) vol.107
号番号(no) 131
ページ範囲 pp.-
ページ数 6
発行日