講演抄録/キーワード |
講演名 |
2004-11-25 15:30
Web上の表形式類似データの統合技法 ○吉村千秋(山梨大/山梨県富士工技センター)・渡辺喜道(山梨大) |
抄録 |
(和) |
本研究では,Web上に存在する表形式で表現されている複数のデータを統合し,ひとつの表形式に変換する技法について提案する.Web上に公開されている表形式のデータは,HTML形式あるいはpdf形式で提供されることが多いが,メーカや品種・機種が異なるなど,同種の内容を持つが表現方法が異なるデータが多数存在する.これら複数の類似データをユーザが比較するためには,カットアンドペーストなどを行い一覧表形式として統合する手法等が有効であるが,統合するための作業時間がかかるという問題がある.本手法では,類似データから共通項目を特定することで,機械的処理により一覧表形式として統合する技法について報告する.また,その技法に基づくプロトタイプシステムについて報告する. |
(英) |
In this research, we propose the integration technique of table-type similar data on Web. The table-type data currently exhibited on Web is offered in HTML form or pdf form, and there exist several tables where only names of items differ. Although the technique which the user cuts and pastes from several tables and makes a table by unifying these tables is used in order to compare contents of them, it is very hard to make the unified table. This article reports the technique which automatically unified to one table from several tables by specifying common items. The prototype system based on the technique is reported. |
キーワード |
(和) |
Web / 表 / データマイニング / 再現率 / 適合率 / 類似度 / Nグラム / |
(英) |
Web / tables / data mining / recall / precision / similarity / n-gram / |
文献情報 |
信学技報, vol. 104, no. 466, SS2004-30, pp. 25-29, 2004年11月. |
資料番号 |
SS2004-30 |
発行日 |
2004-11-18 (SS) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|