講演名 1998/10/14
多値属性を用いた最適なデータセグメンテーションを生成するアルゴリズム
福田 剛志, 森本 康彦, 徳山 豪,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では, 範疇属性からなるデータベースを最適に2分割する問題に付いて議論する.我々の目標は, 説明属性に対するテストで, 目的属性を最適にするようなものを発見することである.任意の目的関数を許せば, この問題を効率的に解くことはできない.しかし, 典型的な目的関数であるエントロピ, giniインデックスは凸関数であり, 目的関数が凸のとき, 最適な2分割を効率的に求めるアルゴリズムが存在する.本論文では, 計算幾何学の手法を応用することによって, 従来の方法が適用できない, 目的属性が2値でない場合に対しても最適な2分割を求めることのできるアルゴリズムを示す.
抄録(英) We consider the problem of finding nearly optimal binary segmentations of categorical databases. Our goal is to find tests against explanatory attributes that split databases into two subsets, optimizing the value of an objective function. The problem is intractable for general objective functions. However, when the objective function is convex, there are effective algorithms for finding nearly optimal binary segmentations, and typical criteria, such as "entropy(mutual information), " and "gini index(mean squared error), " are actually convex. We propose practical algorithms that use computational geometry techniques to handle cases where a target attribute is not binary, in which conventional approaches could not be used directly.
キーワード(和) データ・マイニング / データ・セグメンテーション / 決定木 / 計算幾何学 / ランダム・アルゴリズム
キーワード(英) data mining / segmentation / decision tree / computational geometry / randomized algorithm
資料番号 DE98-23
発行日

研究会情報
研究会 DE
開催期間 1998/10/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 多値属性を用いた最適なデータセグメンテーションを生成するアルゴリズム
サブタイトル(和)
タイトル(英) Algorithms for Mining Optimal Binary Segmentations for Categorical Attributes
サブタイトル(和)
キーワード(1)(和/英) データ・マイニング / data mining
キーワード(2)(和/英) データ・セグメンテーション / segmentation
キーワード(3)(和/英) 決定木 / decision tree
キーワード(4)(和/英) 計算幾何学 / computational geometry
キーワード(5)(和/英) ランダム・アルゴリズム / randomized algorithm
第 1 著者 氏名(和/英) 福田 剛志 / Takeshi Fukuda
第 1 著者 所属(和/英) 日本アイ・ビー・エム(株)東京基礎研究所
IBM Tokyo Research Laboratory
第 2 著者 氏名(和/英) 森本 康彦 / Yasuhiko Morimoto
第 2 著者 所属(和/英) 日本アイ・ビー・エム(株)東京基礎研究所
IBM Tokyo Research Laboratory
第 3 著者 氏名(和/英) 徳山 豪 / Takeshi Tokuyama
第 3 著者 所属(和/英) 日本アイ・ビー・エム(株)東京基礎研究所
IBM Tokyo Research Laboratory
発表年月日 1998/10/14
資料番号 DE98-23
巻番号(vol) vol.98
号番号(no) 316
ページ範囲 pp.-
ページ数 9
発行日