大会名称 |
---|
2010年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2010 |
発行日 |
2010/8/20 |
セッション番号 |
1N |
セッション名 |
Webインテリジェンス |
講演日 |
2010/09/07 |
講演場所(会議室等) |
N会場(ウエスト2号館3F 大講義室) |
講演番号 |
F-007 |
タイトル |
編集距離を組み込んだWrapperによるWebからの情報抽出 |
著者名 |
坪島 恭平, 大和田 勇人, |
キーワード |
情報抽出, Wrapper, 編集距離 |
抄録 |
近年インターネットの発達によってWeb上に膨大な量の情報が存在するようになった.それによりユーザは自由に情報を得られるようになった一方で,ユーザにとって必要な情報のみを得ることは時間と手間を要するようになった.そこで,本研究ではHTMLなどの半構造化文書から有用な知識を発見・抽出するため,ページレイアウトを基にサイトから情報を抽出するプログラムであるWrapperに着目している.そして,編集距離を用いることでより精度の高いWrapperを生成し,情報抽出する手法を提案する.これによりページレイアウトが異なるサイトにおいても同様に有用な情報のみを抽出することが可能である. |
本文pdf |
PDF download (160.8KB) |