大会名称
2010年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2010
発行日
2010/8/20
セッション番号
3Q
セッション名
プライバシーと健全性確保
講演日
2010/09/07
講演場所(会議室等)
Q会場(ウエスト2号館3F 第5講義室)
講演番号
RD-002
タイトル
HTML要素に着目した違法・有害サイト検出手法の提案と評価
著者名
池田 和史柳原 正松本 一則滝嶋 康弘
キーワード
情報フィルタリング, HTML, Support Vector Machine, 外形的特徴, 違法・有害情報
抄録
本稿では高速かつ高精度に違法・有害サイトを検出するため、WebサイトのHTMLを対象とした違法・有害サイト検出手法を提案する。提案手法では違法・有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し、SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて違法・有害サイトの検出を行う。提案手法はWebサイトの本文の情報を利用しないため、既存のキーワードベース方式によって検出が困難なサイトも検出が可能である点が特徴である。このため、既存のキーワードベース方式と組み合わせて利用することも有効である。大規模な実Webサイトデータを用いた性能評価により、既存のキーワードベース方式と比較して、適合率を9.3%向上するなどの性能向上を確認した。
本文pdf
PDF download (413.6KB)