講演名 2007/7/17
Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
佐々木 稔, 新納 浩幸,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ディレクトリ型の検索サービスはあらかじめWebページが項目別にまとめられているので,初心者でも簡単にWWW(World Wide Web)検索をすることができる.このようなサービスを運営する側はWebディレクトリへのサイト登録や分類,管理といった作業を人手により行っているため,膨大なWebページを処理することが困難となる.そのため,我々は人手で行っているWebディレクトリの管理作業を自動化するシステムの構築を目指している.これまで,サイトの内容語を扱わず,ホームページに記述されたmetaタグのname属性値であるkeywordとdescriptionをキーワードとして階層のトップレベルで分類を行い,その結果として分類精度が82%となり,本文を利用した場合の55%を大幅に上回る分類性能を得ることができた.本稿では,これまでトップレベルで行っていた分類を拡張し,ディレクトリ階層全体を対象としてWebサイトを分類する手法について述べる.階層構造全体を対象とすることで,より現実的で,実用的なWebディレクトリの構築を行うことが可能となる.階層的な分類においてもkeyword,description属性値をキーワードとして利用することの有効性を確かめるために,未分類のデータを利用して実験を行った結果,metaタグのみをキーワードとして利用したシステムは平均62.7%の分類精度を得ることができた.比較として,metaタグを使わずにHTML文書の本文を利用した場合の分類結果を求めると42.3%であった.これより,階層的な分類においてもHTML文書の本文を利用するよりmetaタグのみを利用した方が有効であることが分かった.また,平均精度が60%を超えていることから,半自動でのWebディレクトリの構築が可能であると考えられる.
抄録(英) A web directory is a directory on the World Wide Web. For example, Yahoo! Directory and Dmoz are well known web directories. Some categories have a lot of web site links across an extensive range of topics. So we browse the categories below to find helpful resources and information. The web directories are created and maintained by human volunteers who are experts in particular categories. So many submissions of registering URLs are delayed due to not selecting the most specific category for them. In our research, we construct a system of automatic classification into a web directory which is maintained by human. In former experiments, the keywords and the description value of the meta tag in HTML documents are very efficient for Web site classification and the effects of the common words cause misclassification of Web sites. In this paper, we describe a classification system for hierarchical web directory structure. Using the whole directory hierarchy, we consider that the system enables to construct a practical and useful web directory. To evaluate the efficiency of this system based on the values of meta tag, we make an experiment on classifying web sites into the Dmoz directory using the web site registered in the Yahoo! directory. As the results of these experiments, the average precision using meta tag is about 62.7% and that using text of HTML document is about 42.3%. The precision using meta tag is higher than using text and we find the efficiency of the meta tag in the hierarchical classification as well as the classification to flat categories.
キーワード(和)
キーワード(英)
資料番号 NLC2007-19
発行日

研究会情報
研究会 NLC
開催期間 2007/7/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
サブタイトル(和)
タイトル(英) Hierarchical Classification of Web Sites to Web Directory
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 佐々木 稔 / Minoru SASAKI
第 1 著者 所属(和/英) 茨城大学工学部
Department of Computer and Information Sciences, Ibaraki University
第 2 著者 氏名(和/英) 新納 浩幸 / Hiroyuki SHINNOU
第 2 著者 所属(和/英) 茨城大学工学部
Department of Computer and Information Sciences, Ibaraki University
発表年月日 2007/7/17
資料番号 NLC2007-19
巻番号(vol) vol.107
号番号(no) 158
ページ範囲 pp.-
ページ数 6
発行日