講演抄録/キーワード |
講演名 |
2006-02-03 11:00
専門語彙テンプレートの自動生成とWebページの自動統合 ○須田真行・岩沼宏治・鍋島英知(山梨大) |
抄録 |
(和) |
現在Web上には膨大な量の情報が蓄積されている.Web上の商品やサービスを比較するため,異なるサイトのデータを比較したいという要求は一般的なものである.
本研究では,ユーザが情報を比較する際の労力を軽減させることを目的として,特定分野に関するWebページの自動統合システムの作成技術について研究を行った.提案する手法は,対象分野に特化した関連語彙テンプレートを利用することで,複数ページの比較・統合を安定した精度で可能にするものである.高精度な比較統合を行なうために,Webから対象関連ページとそれ以外のページを大量に収集し,それらページの出現語彙の差分をとることで対象関連語彙を自動選別し,そこからテンプレートを自動生成した.テンプレートの作成には自動選別した語彙の共起情報を利用した.このテンプレートを用いた比較・統合システムを実装し評価を行ったので報告する. |
(英) |
Demand of comparing products or services provided in Internet frequently occurs. In this paper, we propose an approach of automatic integration of Web pages in a specific field for reducing the time and effort of comparison by hand between the Web pages. Our integration approach is based on a vocabulary template which consists of a set of related words in a certain field. The vocabulary template is automatically generated by (1) removing common words in other fields from words in web pages of the certain field, and (2) clustering words using co-occurrence information. We implemented the integration system for comparing web pages based on the vocabulary template. The preliminary experimental results show the usefulness of our approach based on the vocabulary template. |
キーワード |
(和) |
情報統合 / 共起 / 情報抽出 / / / / / |
(英) |
information integration / word co-occurrence / information retrieval / / / / / |
文献情報 |
信学技報, vol. 105, no. 595, NLC2005-117, pp. 19-24, 2006年2月. |
資料番号 |
NLC2005-117 |
発行日 |
2006-01-27 (NLC) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|
研究会情報 |
研究会 |
NLC |
開催期間 |
2006-02-02 - 2006-02-03 |
開催地(和) |
ラフォーレ琵琶湖 |
開催地(英) |
Laforet Biwako |
テーマ(和) |
テキスト情報の要約と掲示に関わる自然言語処理シンポジウムおよび一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
NLC |
会議コード |
2006-02-NLC |
本文の言語 |
日本語 |
タイトル(和) |
専門語彙テンプレートの自動生成とWebページの自動統合 |
サブタイトル(和) |
|
タイトル(英) |
Automatic Generation of Domain-specific Vocabulary Template and Integration of Web Pages |
サブタイトル(英) |
|
キーワード(1)(和/英) |
情報統合 / information integration |
キーワード(2)(和/英) |
共起 / word co-occurrence |
キーワード(3)(和/英) |
情報抽出 / information retrieval |
キーワード(4)(和/英) |
/ |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
須田 真行 / Masayuki Suda / スダ マサユキ |
第1著者 所属(和/英) |
山梨大学 (略称: 山梨大)
University of Yamanashi (略称: Yamanashi Univ.) |
第2著者 氏名(和/英/ヨミ) |
岩沼 宏治 / Koji Iwanuma / イワヌマ コウジ |
第2著者 所属(和/英) |
山梨大学 (略称: 山梨大)
University of Yamanashi (略称: Yamanashi Univ.) |
第3著者 氏名(和/英/ヨミ) |
鍋島 英知 / Hidetomo Nabeshima / ナベシマ ヒデトモ |
第3著者 所属(和/英) |
山梨大学 (略称: 山梨大)
University of Yamanashi (略称: Yamanashi Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2006-02-03 11:00:00 |
発表時間 |
30分 |
申込先研究会 |
NLC |
資料番号 |
NLC2005-117 |
巻番号(vol) |
vol.105 |
号番号(no) |
no.595 |
ページ範囲 |
pp.19-24 |
ページ数 |
6 |
発行日 |
2006-01-27 (NLC) |