講演名 | 2001/3/12 シリーズ型HTML文書群の事例ベース変換におけるオフライン処理による検索語の絞り込み 鈴木 慎治, 岩沼 宏治, 梅原 雅之, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | シリーズ型HTML文書群からXML文書への変換手法に,事例ベースの変換を用いた変換手法がある.事例ベース変換では変換事例の意味的情報と構造的情報の2点に着目し,変換事例と変換対象のHTML文書の類似性を調べることで,XML文書を生成する.先行研究では構造的情報に重きを置いており,多くの場合に精度の高い変換を行なえる.しかし,構造的情報の一致がない場合は変換精度の低下が著しい.そこで本研究では意味情報を表す語の重みベクトルに注目する.語の重みベクトルを改良することで先行研究の変換精度を上げることを目的とする. |
抄録(英) | Recently, we proposed a case-based mechanical transformation method for HTML documents constituting a Series into XML ones. Although the case-based method uses both of syntactical structural features and semantical term occurrences appearing in HTML documents, the transformation method pays more attention to syntactical features than to semantical ones. In this paper, we investigate the importance of semantical features of term occurrences. First we study how to select important index terms from target HTML documents, and also how to integrate tag information denoting the meaning intended to human. Second we use thesaurus for treating synonym. We experimentally evaluate the proposed methods for several HTML pages gathered from actual WEB sites. |
キーワード(和) | HTML / HTMLからXMLへの変換 / 事例ベース変換 / 検索語の絞り込み / 重み付け / シソーラス |
キーワード(英) | HTML / conversion from HTML into XML / selecting index word / a case-based transformation / weighting / thesaurus |
資料番号 | AI2000-70,KBSE78 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2001/3/12(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | シリーズ型HTML文書群の事例ベース変換におけるオフライン処理による検索語の絞り込み |
サブタイトル(和) | |
タイトル(英) | Selecting Index Terms with a Off-Line Processing for Case-Based Transformation of HTML Documents |
サブタイトル(和) | |
キーワード(1)(和/英) | HTML / HTML |
キーワード(2)(和/英) | HTMLからXMLへの変換 / conversion from HTML into XML |
キーワード(3)(和/英) | 事例ベース変換 / selecting index word |
キーワード(4)(和/英) | 検索語の絞り込み / a case-based transformation |
キーワード(5)(和/英) | 重み付け / weighting |
キーワード(6)(和/英) | シソーラス / thesaurus |
第 1 著者 氏名(和/英) | 鈴木 慎治 / Shinji Suzuki |
第 1 著者 所属(和/英) | 山梨大学コンピュータ・メディア工学科 Dept. of Computer Science and Media Engineering Yamanashi University |
第 2 著者 氏名(和/英) | 岩沼 宏治 / Koji Iwanuma |
第 2 著者 所属(和/英) | 山梨大学コンピュータ・メディア工学科 Dept. of Computer Science and Media Engineering Yamanashi University |
第 3 著者 氏名(和/英) | 梅原 雅之 / Masayuki Umehara |
第 3 著者 所属(和/英) | 山梨大学コンピュータ・メディア工学科 Dept. of Computer Science and Media Engineering Yamanashi University |
発表年月日 | 2001/3/12 |
資料番号 | AI2000-70,KBSE78 |
巻番号(vol) | vol.100 |
号番号(no) | 709 |
ページ範囲 | pp.- |
ページ数 | 4 |
発行日 |