講演名 2003/7/24
老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般)
三井 健, 岩沼 宏治, 鍋島 英知,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究は,事例に基づくHTMLからXMLへの半自動変換法システムを拡張し,老若男女だれでも簡単に使えるHTML文書ラッパ(wrapper)の自動合成システムを新たに提案する.WEBページのテキスト情報を利用することにより,エンドユーザにHTMLタグなどの専門的知識が全く無くとも,極めて自然かつ容易にWEB情報抽出ラッパを作成させるための手法を示す.また性能評価実験の結果,合成されたHTMLラッパは,現実のWEBサイトから非常に高い制度で情報抽出を行なうことも確認できたので併せて報告する.
抄録(英) In this paper, we propose an automated synthesis system of HTML wrappers, which can easily be usedby anyone. The proposed synthesis system fully use .the text information embedded in a HTML documents, andnever demand an expert knowledge on the HTML language from an end user. An intended wrapper is specifiedthrough an information extraction example which can easily be made with the very familiar "cut&paste" operation.We also show, through experiments, that automatically-synthesised HTML wrappers can achieve high accuracy ofextracting informations from real WEB sites.
キーワード(和) WEB / HTML / XML / ラッパ / テキスト情報 / カット&ペースト / 自動合成
キーワード(英) WEB / HTML / XML / wrapper / text information / cut&paste / automated synthesis
資料番号 AI2003-17
発行日

研究会情報
研究会 AI
開催期間 2003/7/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般)
サブタイトル(和)
タイトル(英) An Automated Synthesis System of HTML Wrappers, Which Can Easly Be Used by Anyone
サブタイトル(和)
キーワード(1)(和/英) WEB / WEB
キーワード(2)(和/英) HTML / HTML
キーワード(3)(和/英) XML / XML
キーワード(4)(和/英) ラッパ / wrapper
キーワード(5)(和/英) テキスト情報 / text information
キーワード(6)(和/英) カット&ペースト / cut&paste
キーワード(7)(和/英) 自動合成 / automated synthesis
第 1 著者 氏名(和/英) 三井 健 / Ken MITSUl
第 1 著者 所属(和/英) 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学
Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering
第 2 著者 氏名(和/英) 岩沼 宏治 / Koji IWANUMA
第 2 著者 所属(和/英) 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学
Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering
第 3 著者 氏名(和/英) 鍋島 英知 / Hidetomo NABESHIMA
第 3 著者 所属(和/英) 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学
Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering
発表年月日 2003/7/24
資料番号 AI2003-17
巻番号(vol) vol.103
号番号(no) 243
ページ範囲 pp.-
ページ数 6
発行日