講演名 2006-07-14
Webページ移動先発見のためのクローリング手法の提案(データ応用)
澤 菜津美, 飯田 敏成, 森嶋 厚行, 杉本 重雄, 北川 博之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) World Wide Webは我々の社会に不可欠なメディアとなりつつあるが,コンテンツが分散管理されていることから,しばしば内容の一貫性が維持されていないことがある.我々はWebコンテンツの一貫性維持の問題の一つとして,リンク切れの問題に取り組んできた.特に,リンク切れがWebページの移動によって引き起こされた時に,移動先の発見を行う問題に焦点を当ててきた.これまでの実験の結果,多くのページが,同一サイト内で移動していることがわかった.したがって,Webサイト中のWebページをクローリングすることが,移動先発見の手法として有効であるといえる.しかし,大規模なWebサイト全体を網羅的にクローリングすることはコスト的に問題がある.本稿では,クローリングにおけるページ訪問の順序を工夫することにより,より少ないページ数で移動先ページを発見するための手法を提案する.提案手法と深さ優先探索を実験で比較した結果,提案手法が有効であることがわかった.
抄録(英) While the World Wide Web has become an indispensable medium in our society, the integrity of its contents is not always maintained because of its distributed architecture. We have been tackling the problem of fixing broken Web links, which is an example of the lost integrity of Web contents. In particular, we have been focusing on the problem of how to find moved Web pages when the movement causes broken Web links. Our previous experiments on the problem suggested that many moved Web pages can be found at the same Web site as the Web pages were originally located. Therefore, crawling through the Web site is an effective way to find moved Web pages. An exhaustive crawling, however, would take a huge cost when the size of the Web site is large. This paper proposes a crawling algorithm that visits Web pages in an efficient order. We compared our algorithm with the depth-first order crawling and found that our algorithm is effective.
キーワード(和)
キーワード(英)
資料番号 DE2006-107
発行日

研究会情報
研究会 DE
開催期間 2006/7/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) Webページ移動先発見のためのクローリング手法の提案(データ応用)
サブタイトル(和)
タイトル(英) Proposal of a Crawling Method for Finding Moved Web Pages
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 澤 菜津美 / Natsumi SAWA
第 1 著者 所属(和/英) 筑波大学大学院 図書館情報メディア研究科
Grad. Sch. of Info. and Media Studies, Univ. of Tsukuba
第 2 著者 氏名(和/英) 飯田 敏成 / Toshinari IIDA
第 2 著者 所属(和/英) 筑波大学大学院 図書館情報メディア研究科
Grad. Sch. of Info. and Media Studies, Univ. of Tsukuba
第 3 著者 氏名(和/英) 森嶋 厚行 / Atsuyuki MORISHIMA
第 3 著者 所属(和/英) 筑波大学大学院 図書館情報メディア研究科
Grad. Sch. of Info. and Media Studies, Univ. of Tsukuba
第 4 著者 氏名(和/英) 杉本 重雄 / Shigeo SUGIMOTO
第 4 著者 所属(和/英) 筑波大学大学院 図書館情報メディア研究科
Grad. Sch. of Info. and Media Studies, Univ. of Tsukuba
第 5 著者 氏名(和/英) 北川 博之 / Hiroyuki KITAGAWA
第 5 著者 所属(和/英) 筑波大学大学院 システム情報工学研究科
Grad. Sch. of Sys. and Info. Eng., Univ. of Tsukuba
発表年月日 2006-07-14
資料番号 DE2006-107
巻番号(vol) vol.106
号番号(no) 150
ページ範囲 pp.-
ページ数 5
発行日