講演名 2005-07-14
例示データに基づく選択的ウェブクローリング手法について(対話型検索, 夏のデータベースワークショップ2005)
張 建偉, 石川 佳治, 黒川 沙弓, 北川 博之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, ユーザが提供する例示データに基づく選択的な情報収集手法の提案を行う.本手法の特徴の一つは, ウェブページを動的に収集しつつ, 収集したウェブページから情報抽出を行い, ユーザに提供された例示データを拡充する点である.また, 拡充されたデータからなるデータベースとウェブを融合し, 効率よく選択的クローリングを図る点も特徴である.情報抽出およびクローリングは, ユーザからのフィードバックに応じて適応的に処理される.本手法は内容解析, リンク解析とトピック主導型クローリングの技術を統合することで, 例示データに関連する情報を保持するページの効果的な収集の実現を図る.
抄録(英) In this paper, we propose a selective web crawling method to collect web pages based on example records provided by a user. One of the features of our method is that example records are expanded dynamically with additional records extracted from the crawled HTML pages. Moreover, our system integrates the database composed of example and additional records and the web to achieve an efficient and selective crawling. Information extraction processing and crawling processing are processed adaptively according to the feedbacks from the user. Our method combines the tecniques of contents analysis, link analysis and topic-focused crawling. Therefore, the method will lead an efficient collection of web pages which contain information related to example records.
キーワード(和) クローリング / クローラ / ウェブとデータベースの統合 / リンク解析 / 情報抽出
キーワード(英) crawling / crawler / integration of web and databases / link analysis / information extraction
資料番号 DE2005-74
発行日

研究会情報
研究会 DE
開催期間 2005/7/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) 例示データに基づく選択的ウェブクローリング手法について(対話型検索, 夏のデータベースワークショップ2005)
サブタイトル(和)
タイトル(英) A Selective Web Crawling Method Based on User Examples
サブタイトル(和)
キーワード(1)(和/英) クローリング / crawling
キーワード(2)(和/英) クローラ / crawler
キーワード(3)(和/英) ウェブとデータベースの統合 / integration of web and databases
キーワード(4)(和/英) リンク解析 / link analysis
キーワード(5)(和/英) 情報抽出 / information extraction
第 1 著者 氏名(和/英) 張 建偉 / Jianwei ZHANG
第 1 著者 所属(和/英) 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻
Department of Computer Science, Graduate School of Systems and Information Engineering
第 2 著者 氏名(和/英) 石川 佳治 / Yoshiharu ISHIKAWA
第 2 著者 所属(和/英) 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻:筑波大学計算科学研究センター
Department of Computer Science, Graduate School of Systems and Information Engineering:Center for Computational Sciences University of Tsukuba
第 3 著者 氏名(和/英) 黒川 沙弓 / Sayumi KUROKAWA
第 3 著者 所属(和/英) 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻
Department of Computer Science, Graduate School of Systems and Information Engineering
第 4 著者 氏名(和/英) 北川 博之 / Hiroyuki KITAGAWA
第 4 著者 所属(和/英) 筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻:筑波大学計算科学研究センター
Department of Computer Science, Graduate School of Systems and Information Engineering:Center for Computational Sciences University of Tsukuba
発表年月日 2005-07-14
資料番号 DE2005-74
巻番号(vol) vol.105
号番号(no) 172
ページ範囲 pp.-
ページ数 6
発行日