講演抄録/キーワード |
講演名 |
2007-07-04 10:20
非定型Webコンテンツ管理のための軽量ラッピング言語 ○澤 菜津美・森嶋厚行・杉本重雄・北川博之(筑波大) DE2007-110 |
抄録 |
(和) |
本稿では,HTMLで記述されたWebコンテンツから構造データを抽出するためのラッピング言語Parseletを提案する.Parseletは,特に非定型Webコンテンツから,構造データを抽出する事を考慮して設計されたものである.そのため,人手による規則の記述が容易になるよう,簡易な構文やライブラリの工夫を行っている.本稿では,Parselet開発の動機と設計について述べ,実Webサイトへの適用可能性に関する予備実験の結果を示す. |
(英) |
This paper proposes Parselet, a wrapping language for extracting structured data from Web contents written in HTML. Parselet is designed especially for extracting structured data from non-template-based Web pages and for maintaining the content integrities among such Web pages. Its simple syntax and the library of useful patterns help the user write wrapping descriptions by hand. This paper explains the motivation of its development and the language design and then shows the result of a preliminary experiment about
applicability of the language to real Web sites. |
キーワード |
(和) |
Webサイト管理 / 情報統合 / ラッピング言語 / / / / / |
(英) |
Web-site Management / Information Integration / Wrapping Languages / / / / / |
文献情報 |
信学技報, vol. 107, no. 131, DE2007-110, pp. 527-532, 2007年7月. |
資料番号 |
DE2007-110 |
発行日 |
2007-06-25 (DE) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
DE2007-110 |