講演名 2008-06-19
単語概念ベクトルを用いた文書群からの代表語抽出(テーマ,膨大なデータから学ぶもの)
内山 俊郎, 別所 克人, 内山 匡, 奥 雅博,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 概念ベース法は,単語の特徴をベクトルで表す方法である.文書群は単語集合で構成されているので,単語の概念ベクトル集合を持っていることになる.文書群のベクトル集合の平均は文書群の特徴を表すようになり,検索や分類問題に利用できる。しかし,文書群には多くの単語が含まれているため,その平均だけでは特徴を十分に表し切れていない可能性がある.また,ベクトルで表現された特徴は直観的に理解できないという問題もある.そこで、文書群の代表語によってその特徴を表す方法を提案する.そのため,文書群のベクトル集合を代表するベクトル集合を抽出し,ベクトル集合から代表語を求める方法を示す.
抄録(英) A concept-based method presents feature of words by vectors. Since documents are composed of a set of words, they have a set of concept vectors of words. A center of gravity of concept vectors in documents becomes to present a feature of documents, and it can be used for search and classification problems. However, only one vector such as the center of gravity may not be enough to present their whole feature, considering a lot of words in them. It is also a problem that a vector expression is not easy to be recognized by human directly. Therefore, this paper proposes a novel method that presents features of documents by representative words of the documents. It also presents a method that extracts prototype vectors from a set of concept vectors and that derives representative words from the prototype vectors.
キーワード(和) 文書特徴 / 概念ベクトル / クラスタリング / 代表語
キーワード(英) Document feature / Concept vector / Clustering / Representative words
資料番号 DE2008-9,PRMU2008-27
発行日

研究会情報
研究会 PRMU
開催期間 2008/6/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 単語概念ベクトルを用いた文書群からの代表語抽出(テーマ,膨大なデータから学ぶもの)
サブタイトル(和)
タイトル(英) Extraction of representative words from documents using concept-vectors of words
サブタイトル(和)
キーワード(1)(和/英) 文書特徴 / Document feature
キーワード(2)(和/英) 概念ベクトル / Concept vector
キーワード(3)(和/英) クラスタリング / Clustering
キーワード(4)(和/英) 代表語 / Representative words
第 1 著者 氏名(和/英) 内山 俊郎 / Toshio UCHIYAMA
第 1 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solution Laboratories, NTT Corporation
第 2 著者 氏名(和/英) 別所 克人 / Katsuji BESSHO
第 2 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solution Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 内山 匡 / Tadasu UCHIYAMA
第 3 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solution Laboratories, NTT Corporation
第 4 著者 氏名(和/英) 奥 雅博 / Masahiro OKU
第 4 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solution Laboratories, NTT Corporation
発表年月日 2008-06-19
資料番号 DE2008-9,PRMU2008-27
巻番号(vol) vol.108
号番号(no) 94
ページ範囲 pp.-
ページ数 6
発行日