講演名 2007-06-28
木構造データに対する頻出類似部分木の発見(テーマセッション,データ工学とメディア理解との融合)
戸坂 央, 中村 篤祥, 工藤 峰一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ラベル付き木は計算機ネットワークやWebマイニング,バイオインフォマティクス,XML文書マイニング等様々な分野で扱われている.本稿ではこれらのデータからの基礎的なマイニング手法として,類似する部分木が頻出する部分木を発見する問題を扱う.問題の定式化を行った後に,この問題を効率良く解くアルゴリズムを提案する.実際のWebページを用いた実験により提案アルゴリズムが実用的な速度で動作することを確認した.また,Webページからのデータレコード抽出における予備実験では有望な結果が得られた.
抄録(英) We study a novel problem of mining subtrees with frequent occurrence of similar subtrees, and propose an efficient algorithm for this problem. According to our problem setting, frequency of a subtree is counted not only for equivalent subtrees but also for similar subtrees. Our experiment showed that our algorithm is enough fast for practical use. Preliminary experiment for data record extraction using our mining method also showed encouraging result.
キーワード(和) 頻出部分木マイニング / ラベル付き順序木 / 類似部分木 / 木のアラインメント距離
キーワード(英) Frequent subtree mining / Labeled ordered trees / Similar subtree / Tree alignment distance
資料番号 DE2007-2,PRMU2007-28
発行日

研究会情報
研究会 DE
開催期間 2007/6/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 木構造データに対する頻出類似部分木の発見(テーマセッション,データ工学とメディア理解との融合)
サブタイトル(和)
タイトル(英) Finding of Frequent Similar Subtrees in Tree-Structured Data
サブタイトル(和)
キーワード(1)(和/英) 頻出部分木マイニング / Frequent subtree mining
キーワード(2)(和/英) ラベル付き順序木 / Labeled ordered trees
キーワード(3)(和/英) 類似部分木 / Similar subtree
キーワード(4)(和/英) 木のアラインメント距離 / Tree alignment distance
第 1 著者 氏名(和/英) 戸坂 央 / Hisashi TOSAKA
第 1 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology Hokkaido University
第 2 著者 氏名(和/英) 中村 篤祥 / Atsuyoshi NAKAMURA
第 2 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology Hokkaido University
第 3 著者 氏名(和/英) 工藤 峰一 / Mineichi KUDO
第 3 著者 所属(和/英) 北海道大学大学院情報科学研究科
Graduate School of Information Science and Technology Hokkaido University
発表年月日 2007-06-28
資料番号 DE2007-2,PRMU2007-28
巻番号(vol) vol.107
号番号(no) 114
ページ範囲 pp.-
ページ数 6
発行日