講演名 2003/11/18
多次元データ空間に対する高速クラスタリングと実験的評価
中村 朋健, 上土井 陽子, 若林 真一, 吉田 典可,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,巨大なデータベースが世界中の至るところで作成され,そこから役立つ情報を抽出するデータマイニング技術が実用に供されるようになった.規則性の見え難いデータベースからデータベースの性質を見つけ出す場合に,類似したデータ要素を集めるクラスタリングは有効である.特に,大規模な高次元データベースからの知識抽出において,実時間性や即時応答性が要求される分野ではメモリ使用量が少なく高速なクラスタリングが要求される.本稿では,実社会データを想定した高次元かつ疎なデータ空間を対象に,処理時間とデータ要素数が線形関係であるクラスタリング手法を提案する.また,数次元の入力データに対して提案手法を適用し,与えた評価基準により提案手法を評価する.提案手法では入力のデータ空間を階層的に不均一なサイズのセルに区切り,パラメータにより密と判断された隣接したセルを結合させることで,類似したデータ要素を集めるアルゴリズムである.
抄録(英) In recent years, as a number of large databases have been devoloped, the datamaining technology which is to extract useful information becomes popular. To find out properties from a database from which it is difficult to find out ones, the technology of collecting similar data objects is effective. In particular, in extracting knowledge from large and high dimensional database, there is a demand on clustering at high speed with a few amount of the memory. In this paper, for data space which is high dimensional and sparse, we propose a clustering algorithm that the computation time is linear on the number of data. For multi-dimensional input data, we evaluate the algorithm by given validation criterion. The algorithm has a feature which structs cells with irregular size by merging adjacent dense cells.
キーワード(和) データマイニング / クラスタリング / 多次元データ空間 / セル / 階層構造
キーワード(英) Datamining / Clustering / High-Dimensional Data Space / Cell / Hierarchical Structure
資料番号 COMP2003-58
発行日

研究会情報
研究会 COMP
開催期間 2003/11/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Theoretical Foundations of Computing (COMP)
本文の言語 JPN
タイトル(和) 多次元データ空間に対する高速クラスタリングと実験的評価
サブタイトル(和)
タイトル(英) A Fast Clustering on High-Dimensional Data Space and its Experimental Evaluation
サブタイトル(和)
キーワード(1)(和/英) データマイニング / Datamining
キーワード(2)(和/英) クラスタリング / Clustering
キーワード(3)(和/英) 多次元データ空間 / High-Dimensional Data Space
キーワード(4)(和/英) セル / Cell
キーワード(5)(和/英) 階層構造 / Hierarchical Structure
第 1 著者 氏名(和/英) 中村 朋健 / Tomotake NAKAMURA
第 1 著者 所属(和/英) 広島市立大学大学院情報科学研究科
Graduate School of Information Sciences, Hiroshima City University
第 2 著者 氏名(和/英) 上土井 陽子 / Yoko KAMIDOI
第 2 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 3 著者 氏名(和/英) 若林 真一 / Shinichi WAKABAYASHI
第 3 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 4 著者 氏名(和/英) 吉田 典可 / Noriyoshi YOSHIDA
第 4 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
発表年月日 2003/11/18
資料番号 COMP2003-58
巻番号(vol) vol.103
号番号(no) 468
ページ範囲 pp.-
ページ数 7
発行日