講演名 2007-05-31
木文法により圧縮された複数の半構造化文書からの共通頻出木パターンの発見(「自動化:推論,発見,学習,データマイニング」及び一般)
村上 征嗣, 土井 晃一郎, 山本 章博,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,複数の半構造化文書に共通して出現する木パターンを木文法による圧縮アルゴリズムTGCAにより圧縮された半構造化文書から発見する手法を提案し,同時に圧縮が前処理として発見の効率化に有効であることを示す.この手法は,包摂関係にある木パターンを考慮しながら各共通木パターンの出現回数を求める過程も含んでいる.半構造化文書の圧縮に関する技術と半構造化文書からの知識発見は半構造化文書に関する重要な研究テーマであり,本研究はこの二つを同時に行い,さらに計算の効率化も示すものである.
抄録(英) In this study, we present an algorithm that solves the problem of finding common tree patterns from semi-structured texts compressed by the TGCA algorithm. The algorithm shows that compressing texts by TGCA contributes to the efficiency in solving the problem. In the method, the number of common tree patterns that appear is counted while considering subsumption relations among tree patterns. This study combines two significant studies in semi-structured data, methods for compressing semi-structured data and methods for discovering knowledge from semi-structured data.
キーワード(和) 半構造化文書 / データ圧縮 / 共通構造の発見 / 順序木パターン
キーワード(英) semi-structured data / data compression / common pattern discovery / ordered tree patterns
資料番号 AI2007-8
発行日

研究会情報
研究会 AI
開催期間 2007/5/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 木文法により圧縮された複数の半構造化文書からの共通頻出木パターンの発見(「自動化:推論,発見,学習,データマイニング」及び一般)
サブタイトル(和)
タイトル(英) Finding Commom and Frequent Tree Patterns from Semi-Structured Texts Compressed by a Tree Grammar Compression Method
サブタイトル(和)
キーワード(1)(和/英) 半構造化文書 / semi-structured data
キーワード(2)(和/英) データ圧縮 / data compression
キーワード(3)(和/英) 共通構造の発見 / common pattern discovery
キーワード(4)(和/英) 順序木パターン / ordered tree patterns
第 1 著者 氏名(和/英) 村上 征嗣 / Seiji MURAKAMI
第 1 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Department of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
第 2 著者 氏名(和/英) 土井 晃一郎 / Koichiro DOI
第 2 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Department of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
第 3 著者 氏名(和/英) 山本 章博 / Akihiro YAMAMOTO
第 3 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Department of Intelligence Science and Technology, Graduate School of Informatics, Kyoto University
発表年月日 2007-05-31
資料番号 AI2007-8
巻番号(vol) vol.107
号番号(no) 78
ページ範囲 pp.-
ページ数 6
発行日