講演名 2001/10/4
半構造データマイニングのための部分構造パターンの効率的探索
浅井 達哉, 安部 賢治, 川副 真治, 有村 博紀, 有川 節夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, 半構造データベースからのデータマイニングを考察する.我々は半構造データマイニングを, 与えられた半構造データの集積から出現頻度の高い部分構造を発見する問題と定式化し, 頻出する部分構造パターンを発見する効率よいアルゴリズムを与える.このアルゴリズムは, Bayardo(SIGMOD'98)による集合枚挙木に基づくアイテム集合の枚挙法を, 順序木の枚挙へ拡張することにより実現している.さらに, ウェブデータ上で実験を行い, 開発したアルゴリズムの有効性を確認した.
抄録(英) In this paper, we consider a data mining problem for semi-structured data. We present an efficient algorithm for discovering frequent substructures from a given large collection of semi-structured data by modeling semi-structured data as labeled ordered trees. This algorithm is a generalization of the itemset enumeration technique, called set-enumeration tree, by Bayardo(SIGMOD'98)to ordered tree enumeration. The experiments on HTML documents show that the algorithm is efficient and scalabel on realworld data.
キーワード(和) 半構造データ / データマイニング / ウェブマイニング / HTML / XML / 部分構造パターン
キーワード(英) semi-structured data / data mining / web mining / HTML / XML / substructure patterns
資料番号 DE2001-105
発行日

研究会情報
研究会 DE
開催期間 2001/10/4(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 半構造データマイニングのための部分構造パターンの効率的探索
サブタイトル(和)
タイトル(英) Efficient Substructure Discovery from Large Semi-structured Data
サブタイトル(和)
キーワード(1)(和/英) 半構造データ / semi-structured data
キーワード(2)(和/英) データマイニング / data mining
キーワード(3)(和/英) ウェブマイニング / web mining
キーワード(4)(和/英) HTML / HTML
キーワード(5)(和/英) XML / XML
キーワード(6)(和/英) 部分構造パターン / substructure patterns
第 1 著者 氏名(和/英) 浅井 達哉 / Tatsuya ASAI
第 1 著者 所属(和/英) 九州大学大学院システム情報科学府
Graduate School of Information Science and Electrical Engineering, Kyushu University
第 2 著者 氏名(和/英) 安部 賢治 / Kenji ABE
第 2 著者 所属(和/英) 九州大学大学院システム情報科学府
Graduate School of Information Science and Electrical Engineering, Kyushu University
第 3 著者 氏名(和/英) 川副 真治 / Shinji KAWASOE
第 3 著者 所属(和/英) 九州大学大学院システム情報科学府
Graduate School of Information Science and Electrical Engineering, Kyushu University
第 4 著者 氏名(和/英) 有村 博紀 / Hiroki ARIMURA
第 4 著者 所属(和/英) 九州大学大学院システム情報科学研究院
Graduate School of Information Science and Electrical Engineering, Kyushu University
第 5 著者 氏名(和/英) 有川 節夫 / Setsuo ARIKAWA
第 5 著者 所属(和/英) 九州大学大学院システム情報科学研究院
Graduate School of Information Science and Electrical Engineering, Kyushu University
発表年月日 2001/10/4
資料番号 DE2001-105
巻番号(vol) vol.101
号番号(no) 342
ページ範囲 pp.-
ページ数 8
発行日