講演名 | 2004/3/10 類義語辞書とドキュメントの特性を用いた類似度の獲得(一般(データマイニングII))(「社会システムにおける知能」及び一般) 小川 智也, 犬塚 信博, 加藤 昇平, 世木 博久, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | ドキュメントを検索するためにドキュメント間類似度を与える方法を考える。特に専門分野ドキュメント集合に対しても有効に働く類似度を求めたい。従来、ドキュメントを語句の出現数などで特徴づけ、それにより類似度を定義する手法等がある。統計的に次元を圧縮する、類義語辞書のカテゴリで語句をまとめる、またそれらを併用する手法がある。本研究では専門分野のドキュメントに応じて類義語辞書のカテゴリを動的に併合する手法を与え、ドキュメントに応じた次元圧縮をし、類似度を求める手法を提案する。 |
抄録(英) | We study a method to give similarity between documents, the similarity which can be used for search. This paper aims to give a method for documents in specific fields. Some conventional methods treat a document as a vectors of frequency of words in the document and a similarity is given in the vector space. In this case the large dimension is a problem. Some solution includes counting words in a semantic category in a dimension, a statistical method, and combining these. This paper proposes a method that merges semantic categories depending on the given collection of documents. This is expected to give an appropriate similarity for documents in specific fields with reasonable dimension. |
キーワード(和) | テキストマイニング / 類似度 / 類義語辞書 |
キーワード(英) | text mining / similarity / thesaurus |
資料番号 | AI2003-107 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2004/3/10(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | 類義語辞書とドキュメントの特性を用いた類似度の獲得(一般(データマイニングII))(「社会システムにおける知能」及び一般) |
サブタイトル(和) | |
タイトル(英) | Similarity of Documents Using Thesaurus and Statistical Characteristics |
サブタイトル(和) | |
キーワード(1)(和/英) | テキストマイニング / text mining |
キーワード(2)(和/英) | 類似度 / similarity |
キーワード(3)(和/英) | 類義語辞書 / thesaurus |
第 1 著者 氏名(和/英) | 小川 智也 / Tomoya OGAWA |
第 1 著者 所属(和/英) | 名古屋工業大学 Nagoya Institute of Technology |
第 2 著者 氏名(和/英) | 犬塚 信博 / Nobuhiro INUZUKA |
第 2 著者 所属(和/英) | 名古屋工業大学 Nagoya Institute of Technology |
第 3 著者 氏名(和/英) | 加藤 昇平 / Shohei KATO |
第 3 著者 所属(和/英) | 名古屋工業大学 Nagoya Institute of Technology |
第 4 著者 氏名(和/英) | 世木 博久 / Hirohisa SEKI |
第 4 著者 所属(和/英) | 名古屋工業大学 Nagoya Institute of Technology |
発表年月日 | 2004/3/10 |
資料番号 | AI2003-107 |
巻番号(vol) | vol.103 |
号番号(no) | 726 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |