講演名 2004/3/10
類義語辞書とドキュメントの特性を用いた類似度の獲得(一般(データマイニングII))(「社会システムにおける知能」及び一般)
小川 智也, 犬塚 信博, 加藤 昇平, 世木 博久,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ドキュメントを検索するためにドキュメント間類似度を与える方法を考える。特に専門分野ドキュメント集合に対しても有効に働く類似度を求めたい。従来、ドキュメントを語句の出現数などで特徴づけ、それにより類似度を定義する手法等がある。統計的に次元を圧縮する、類義語辞書のカテゴリで語句をまとめる、またそれらを併用する手法がある。本研究では専門分野のドキュメントに応じて類義語辞書のカテゴリを動的に併合する手法を与え、ドキュメントに応じた次元圧縮をし、類似度を求める手法を提案する。
抄録(英) We study a method to give similarity between documents, the similarity which can be used for search. This paper aims to give a method for documents in specific fields. Some conventional methods treat a document as a vectors of frequency of words in the document and a similarity is given in the vector space. In this case the large dimension is a problem. Some solution includes counting words in a semantic category in a dimension, a statistical method, and combining these. This paper proposes a method that merges semantic categories depending on the given collection of documents. This is expected to give an appropriate similarity for documents in specific fields with reasonable dimension.
キーワード(和) テキストマイニング / 類似度 / 類義語辞書
キーワード(英) text mining / similarity / thesaurus
資料番号 AI2003-107
発行日

研究会情報
研究会 AI
開催期間 2004/3/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 類義語辞書とドキュメントの特性を用いた類似度の獲得(一般(データマイニングII))(「社会システムにおける知能」及び一般)
サブタイトル(和)
タイトル(英) Similarity of Documents Using Thesaurus and Statistical Characteristics
サブタイトル(和)
キーワード(1)(和/英) テキストマイニング / text mining
キーワード(2)(和/英) 類似度 / similarity
キーワード(3)(和/英) 類義語辞書 / thesaurus
第 1 著者 氏名(和/英) 小川 智也 / Tomoya OGAWA
第 1 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
第 2 著者 氏名(和/英) 犬塚 信博 / Nobuhiro INUZUKA
第 2 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
第 3 著者 氏名(和/英) 加藤 昇平 / Shohei KATO
第 3 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
第 4 著者 氏名(和/英) 世木 博久 / Hirohisa SEKI
第 4 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
発表年月日 2004/3/10
資料番号 AI2003-107
巻番号(vol) vol.103
号番号(no) 726
ページ範囲 pp.-
ページ数 6
発行日