大会名称 |
---|
2009年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2009 |
発行日 |
2009/8/20 |
セッション番号 |
4G |
セッション名 |
学習 |
講演日 |
2009/09/03 |
講演場所(会議室等) |
G会場(9号館2F 922教室) |
講演番号 |
F-039 |
タイトル |
帰納論理プログラミングを用いたWebラッパー自動生成 |
著者名 |
河野 碧, 西山 裕之, 大和田 勇人, |
キーワード |
Web Wrapper, ILP |
抄録 |
Webラッパーとは,半構造化文書から必要な情報のみを抽出し,構造を再構築するプログラムおよび抽出ルール群のことである.従来の手法では対象ページを単一レコードのみに限定するなどで抽出ルール導出手法を単純化し,Webラッパーの自動生成を可能にしていた.これでは抽出不能なページに対しては何ら適用できない.本論文では,帰納論理プログラミングを利用することで任意のページに対する抽出ルールの自動導出およびWebラッパー自動生成の手法を提案する.帰納論理プログラミングによる学習器(Progol)を用いることでページの構造を学習し,ユーザが指定したテキストのみを抽出するルールを自動導出することでWebラッパーの自動生成を可能にした. |
本文pdf |
PDF download (430.1KB) |