大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
4G
セッション名
学習
講演日
2009/09/03
講演場所(会議室等)
G会場(9号館2F 922教室)
講演番号
F-039
タイトル
帰納論理プログラミングを用いたWebラッパー自動生成
著者名
河野 碧西山 裕之大和田 勇人
キーワード
Web Wrapper, ILP
抄録
Webラッパーとは,半構造化文書から必要な情報のみを抽出し,構造を再構築するプログラムおよび抽出ルール群のことである.従来の手法では対象ページを単一レコードのみに限定するなどで抽出ルール導出手法を単純化し,Webラッパーの自動生成を可能にしていた.これでは抽出不能なページに対しては何ら適用できない.本論文では,帰納論理プログラミングを利用することで任意のページに対する抽出ルールの自動導出およびWebラッパー自動生成の手法を提案する.帰納論理プログラミングによる学習器(Progol)を用いることでページの構造を学習し,ユーザが指定したテキストのみを抽出するルールを自動導出することでWebラッパーの自動生成を可能にした.
本文pdf
PDF download (430.1KB)