講演名 2006-07-13
Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出)
田代 崇, 上田 高徳, 堀 泰祐, 平手 勇宇, 山名 早人,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年のWebページ総数の飛躍的な増加に伴い,歌詞や新聞記事の無断引用などの著作権侵害のWebページの数も増大している.そこで本稿では,著作権違反の疑いのあるページを自動検出するシステムを提案する.本システムではまず,検索ワードを,指定された文章を文節単位に区切り組み合わせることにより生成し、GoogleやYahoo!が提供しているWebサービスを用いて著作権違反の候補ページを収集する.次に候補ページを類似度をもとにランキングを行ない,ユーザーに提示する.ランキングに用いた類似度は文節をもとにした最長共通部分列から求める.評価実験を行った結果,歌詞,新聞記事,ブログ等からなるWebページをシードとして,著作権侵害ページを検出することができた.
抄録(英) Due to explosive increase of the number of web pages, the number of copyright violation web pages, such as lyrics or news citation pages without permission, has also been increased. To solve this problem, we propose a system for detecting copyright violation web pages. The proposed system consists of three steps. Firstly, the system generates search keywords on phrasal units, called "bunsetsu", which are included in the "seed page." Secondly, on search keywords generated by the first step, the system gathers candidate of web pages violating copyright by using Google or Yahoo! web service. Finally, the system re-ranks the candidate web pages with similarity to the seed page. Here, we adopted "Longest Common Subsequence" of phrasal units, as a similarity measurement. Our evaluation confirmed that proposed system is able to extract copy violation web pages correctly.
キーワード(和) 情報検索 / 著作権侵害ページの検出 / 類似度
キーワード(英) Information Retrieval / Copyright Vioraiton Detection / Document Similarity
資料番号 DE2006-54
発行日

研究会情報
研究会 DE
開催期間 2006/7/6(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Data Engineering (DE)
本文の言語 JPN
タイトル(和) Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出)
サブタイトル(和)
タイトル(英) Copyright violation detection system for Web texts
サブタイトル(和)
キーワード(1)(和/英) 情報検索 / Information Retrieval
キーワード(2)(和/英) 著作権侵害ページの検出 / Copyright Vioraiton Detection
キーワード(3)(和/英) 類似度 / Document Similarity
第 1 著者 氏名(和/英) 田代 崇 / Takashi TASHIRO
第 1 著者 所属(和/英) 早稲田大学理工学部
Science and Engineering, Waseda University
第 2 著者 氏名(和/英) 上田 高徳 / Takanori UEDA
第 2 著者 所属(和/英) 早稲田大学理工学部
Science and Engineering, Waseda University
第 3 著者 氏名(和/英) 堀 泰祐 / Taisuke HORI
第 3 著者 所属(和/英) 早稲田大学理工学部
Science and Engineering, Waseda University
第 4 著者 氏名(和/英) 平手 勇宇 / Yu HIRATE
第 4 著者 所属(和/英) 早稲田大学大学院理工学研究科
Graduate School of Science and Engineering, Waseda University
第 5 著者 氏名(和/英) 山名 早人 / Hayato YAMANA
第 5 著者 所属(和/英) 早稲田大学理工学部:国立情報学研究所
Science and Engineering, Waseda University:National Institute of Informatics
発表年月日 2006-07-13
資料番号 DE2006-54
巻番号(vol) vol.106
号番号(no) 149
ページ範囲 pp.-
ページ数 6
発行日