講演名 | 2003/7/24 老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般) 三井 健, 岩沼 宏治, 鍋島 英知, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本研究は,事例に基づくHTMLからXMLへの半自動変換法システムを拡張し,老若男女だれでも簡単に使えるHTML文書ラッパ(wrapper)の自動合成システムを新たに提案する.WEBページのテキスト情報を利用することにより,エンドユーザにHTMLタグなどの専門的知識が全く無くとも,極めて自然かつ容易にWEB情報抽出ラッパを作成させるための手法を示す.また性能評価実験の結果,合成されたHTMLラッパは,現実のWEBサイトから非常に高い制度で情報抽出を行なうことも確認できたので併せて報告する. |
抄録(英) | In this paper, we propose an automated synthesis system of HTML wrappers, which can easily be usedby anyone. The proposed synthesis system fully use .the text information embedded in a HTML documents, andnever demand an expert knowledge on the HTML language from an end user. An intended wrapper is specifiedthrough an information extraction example which can easily be made with the very familiar "cut&paste" operation.We also show, through experiments, that automatically-synthesised HTML wrappers can achieve high accuracy ofextracting informations from real WEB sites. |
キーワード(和) | WEB / HTML / XML / ラッパ / テキスト情報 / カット&ペースト / 自動合成 |
キーワード(英) | WEB / HTML / XML / wrapper / text information / cut&paste / automated synthesis |
資料番号 | AI2003-17 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2003/7/24(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | 老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般) |
サブタイトル(和) | |
タイトル(英) | An Automated Synthesis System of HTML Wrappers, Which Can Easly Be Used by Anyone |
サブタイトル(和) | |
キーワード(1)(和/英) | WEB / WEB |
キーワード(2)(和/英) | HTML / HTML |
キーワード(3)(和/英) | XML / XML |
キーワード(4)(和/英) | ラッパ / wrapper |
キーワード(5)(和/英) | テキスト情報 / text information |
キーワード(6)(和/英) | カット&ペースト / cut&paste |
キーワード(7)(和/英) | 自動合成 / automated synthesis |
第 1 著者 氏名(和/英) | 三井 健 / Ken MITSUl |
第 1 著者 所属(和/英) | 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学 Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering |
第 2 著者 氏名(和/英) | 岩沼 宏治 / Koji IWANUMA |
第 2 著者 所属(和/英) | 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学 Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering |
第 3 著者 氏名(和/英) | 鍋島 英知 / Hidetomo NABESHIMA |
第 3 著者 所属(和/英) | 山梨大学大学院医学工学総合研究部コンピュータ・メディア工学 Yamanashi University, Graduate School, Dept. of Computer Scienc and Media Engineering |
発表年月日 | 2003/7/24 |
資料番号 | AI2003-17 |
巻番号(vol) | vol.103 |
号番号(no) | 243 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |