講演名 | 2003/10/20 サイト内検索エンジンのためのスコアリング手法 伊川 洋平, 定兼 邦彦, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | Web検索エンジンの利便性の向上させる手段として,各ページの重要度に応じてスコアを割り当てる.Webページのスコアリングがある.GoogleのPageRankは,WWW検索エンジンで有効なスコアリング手法として広く知られているが,サイトない検索エンジンでは,PageRankのような手法ではよい結果が得られず,テキストマッチングによってのみスコアリングを行っており,Webの大きな特徴であるリンク情報を活用できていないのが現状である.我々が提案している,Webサイトのリンク構造に特化したサイト内検索エンジンのためのスコアリング手法であるHotLink法は,ランダムに固定した木を用いるために,結果が木の選び方に依存してしまう問題があった.そこで本稿では,全ての最短路木の平均のスコアを求めることでこの問題点を解決している.全ての最短路木を考えることによって結果が木の選び方に依存しなくなり,従来手法よりも頑健な結果を得ることができる.また本稿では,平均のスコアをO(|V||E|)で求めるアルゴリズムを提案している.ここでVとEはそれぞれWebページとハイパーリンクの集合を表している.また実験により,提案手法がWebサイト内の重要なページを発見するのに有効な手法であることが示された. |
抄録(英) | Web-page scoring is a method to improve Web search-engines by assigning a score to each page according to its importance. The PaegRank algorithm implemented for Google is a well known efficient scoring method for WWW search-engines, whereas it is not efficient for searching a local Web. For the latter case, text matching is usually used for computing scores and the hyperlink structure of Web-pages is wasted. Although a method for scoring local Web-pages called the HotLink has been proposed, it is not well established because the scores depend on how to extract a tree structure, which is unknown, from the Web-graph. In this paper, we solve the problem of the HotLink method by considering all shortest-path trees and taking the average score. As a result, the scores are independent of the selection of a tree, which makes the scores robust. We also propose an efficient algorithm to compute this average score in O(|V|||E|) time where V and E is the set of pages and hyperlinks of a local Web-graph, respectively. Experimental results show that our new scoring method captures important pages in a local Web. |
キーワード(和) | Webとインターネット / 情報検索 |
キーワード(英) | Web and Internet / Information Retrieval |
資料番号 | COMP2003-51 |
発行日 |
研究会情報 | |
研究会 | COMP |
---|---|
開催期間 | 2003/10/20(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Theoretical Foundations of Computing (COMP) |
---|---|
本文の言語 | JPN |
タイトル(和) | サイト内検索エンジンのためのスコアリング手法 |
サブタイトル(和) | |
タイトル(英) | A Web Page Scoring Method for Local Web Search Engines |
サブタイトル(和) | |
キーワード(1)(和/英) | Webとインターネット / Web and Internet |
キーワード(2)(和/英) | 情報検索 / Information Retrieval |
第 1 著者 氏名(和/英) | 伊川 洋平 / Yohei IKAWA |
第 1 著者 所属(和/英) | 東北大学大学院情報科学研究科 Department of System Information Sciences, Graduate School of Information Sciences, Tohoku University |
第 2 著者 氏名(和/英) | 定兼 邦彦 / Kunihiko SADAKANE |
第 2 著者 所属(和/英) | 九州大学大学院システム情報科学研究科 Department of Computer Science and Communication Engineering, Kyushu University |
発表年月日 | 2003/10/20 |
資料番号 | COMP2003-51 |
巻番号(vol) | vol.103 |
号番号(no) | 394 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |