講演名 2003/3/6
半構造データからの縮約可能変数つきタグ木パターンの抽出(<特集>「アクティブマイニング」及び一般)
宮原 哲浩, 鈴木 祐介, 正代 隆義, 内田 智之, 高橋 健一, 上田 祐彰,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 半構造データからの情報抽出がますます重要になってきている.半構造データから意味がある,興味深い内容を抽出するためには,半構造データに共通なパターンを抽出することが必要である.タグ木パターンは,辺ラベルを持つ順序木で,タグの木構造と構造的変数を持つ.辺ラベルはタグがキーワードかワイルドカードであり,変数には任意の木を代入することができる.特に,縮約可能変数は,1頂点だけから成る木を含む,任意の木とマッチする.よって,タグ木パターンは,不定形な半構造データに共通する構造的パターンを表現するのに適している.我々は,与えられたデータを説明する最小に一般化されたタグ木パターンをみつけるアルゴリズムを用いて,不定形な半構造データから特徴的なタグ木パターンを抽出する新しい方法を提示する.本手法を,HTML/XMLファイルからの特徴的タグ木パターンの抽出へ適用した実験結果についても報告する.
抄録(英) Information Extraction from semistructured data becomes more and more important. In order to extract meaningful or interesting contents from semistructured data, we need to extract common structured patterns from semistructured data. A tag tree pattern is an edge labeled tree with ordered children which has tree structures of tags and structured variables. An edge label is a tag, a keyword or a wildcard, and a variable can be substituted by an arbitrary tree. In particular, a contractible variable matches any subtree including a singleton vertex. A tag tree pattern is hence suited for representing common tree structured patterns in irregular semistructured data. We present a new method for extracting characteristic tag tree patterns from irregular semistructured data by using an algorithm for finding a least generalized tag tree pattern explaining given data. We report some experiments of applying this method to extracting characteristic tag tree patterns from HTML/XML files.
キーワード(和) 情報抽出 / Webマイニング / 半構造データ / HTML / XMLファイル / タグ木パターン
キーワード(英) Information Extraction / Web based mining / semistructured data / HTML / XML file / tag tree pattern
資料番号 AI2002-63
発行日

研究会情報
研究会 AI
開催期間 2003/3/6(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 ENG
タイトル(和) 半構造データからの縮約可能変数つきタグ木パターンの抽出(<特集>「アクティブマイニング」及び一般)
サブタイトル(和)
タイトル(英) Extraction of Tag Tree Patterns with Contractible Variables from Semistructured Data
サブタイトル(和)
キーワード(1)(和/英) 情報抽出 / Information Extraction
キーワード(2)(和/英) Webマイニング / Web based mining
キーワード(3)(和/英) 半構造データ / semistructured data
キーワード(4)(和/英) HTML / HTML
キーワード(5)(和/英) XMLファイル / XML file
キーワード(6)(和/英) タグ木パターン / tag tree pattern
第 1 著者 氏名(和/英) 宮原 哲浩 / Tetsuhiro MIYAHARA
第 1 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 2 著者 氏名(和/英) 鈴木 祐介 / Yusuke SUZUKI
第 2 著者 所属(和/英) 九州大学大学院システム情報科学府・研究院
Department of Informatics, Kyushu University
第 3 著者 氏名(和/英) 正代 隆義 / Takayoshi SHOUDAI
第 3 著者 所属(和/英) 九州大学大学院システム情報科学府・研究院
Department of Informatics, Kyushu University
第 4 著者 氏名(和/英) 内田 智之 / Tomoyuki UCHIDA
第 4 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 5 著者 氏名(和/英) 高橋 健一 / Kenichi TAKAHASHI
第 5 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
第 6 著者 氏名(和/英) 上田 祐彰 / Hiroaki UEDA
第 6 著者 所属(和/英) 広島市立大学情報科学部
Faculty of Information Sciences, Hiroshima City University
発表年月日 2003/3/6
資料番号 AI2002-63
巻番号(vol) vol.102
号番号(no) 709
ページ範囲 pp.-
ページ数 5
発行日