大会名称
2004年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2004
発行日
2004/8/20
セッション番号
14
セッション名
Web知的処理の基礎
講演日
2004/9/9
講演場所(会議室等)
第2サブメイン会場
講演番号
N-2
タイトル
Webページの知的探索・統合・加工
著者名
廣川 佐千男
キーワード
抄録
インターネット上のホームページ群は世界際大の知識の書物と呼べる.増え続けるWeb空間から効率良く知識を獲得する手法の開発は,現在の情報社会における最も重要な研究テーマといえる.本講演では,Web上の高品質文書群を効率良く発見,統合,加工し活用するための研究を紹介する.すべてのホームページを網羅的に収集するのではなく,同系統の文書群に着目する研究について紹介する.すなわち,多量な同系統文書群は高品質であるというヒューリスティックに基づくWEBページの知的探索・統合・加工についての研究動向を紹介する.具体的には,HTMLファイルに繰り返し現われる特徴的なタグ・パターンの抽出法に関する研究,複数のページ群から類似構造を持つ文書群を網羅的に検出するための研究,リンク構造と構造類似性で特徴付けられる「シリーズ型文書群」の概念と,それらを対象としたWebマイニングの研究などについて紹介する.