大会名称
2010年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2010
発行日
2010/8/20
セッション番号
1N
セッション名
Webインテリジェンス
講演日
2010/09/07
講演場所(会議室等)
N会場(ウエスト2号館3F 大講義室)
講演番号
F-007
タイトル
編集距離を組み込んだWrapperによるWebからの情報抽出
著者名
坪島 恭平大和田 勇人
キーワード
情報抽出, Wrapper, 編集距離
抄録
近年インターネットの発達によってWeb上に膨大な量の情報が存在するようになった.それによりユーザは自由に情報を得られるようになった一方で,ユーザにとって必要な情報のみを得ることは時間と手間を要するようになった.そこで,本研究ではHTMLなどの半構造化文書から有用な知識を発見・抽出するため,ページレイアウトを基にサイトから情報を抽出するプログラムであるWrapperに着目している.そして,編集距離を用いることでより精度の高いWrapperを生成し,情報抽出する手法を提案する.これによりページレイアウトが異なるサイトにおいても同様に有用な情報のみを抽出することが可能である.
本文pdf
PDF download (160.8KB)