講演名 2011-06-07
文書クラスタリングアルゴリズムと基準の比較(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
内山 俊郎, 江田 毅晴, 別所 克人, 藤村 考,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,文書クラスタリング問題に関し,2つのクラスタリング基準と4つのアルゴリズムの性能について評価・検討を行う.評価に用いたクラスタリング基準は,コサイン類似度とエントロピー基準である.クラスタリング結果の良さは,クラスタ内でのクラスラベルの出現確率分布に基づいて測る.本稿では,クラスタリング基準とアルゴリズムの全組み合わせについて実験を行ない,コサイン類似度よりもエントロピー基準が優れていること,エントロピー基準における競合学習が最も良い性能を示すことを確認した.
抄録(英) This paper investigates the performance of two criterion functions and four different algorithms for document clustering. The criteria, that we evaluate, are the cosine similarity criterion and the entropy-based criterion. The quality of a clustering solution is evaluated how the various classes of documents are distributed within each cluster. We present an experimental evaluation involving all combination of criterion functions and algorithms. Our experimental results show that the entropy-based criterion is superior to the cosine similarity's and that competitive learning algorithm with the entropy-based criterion achieves the best performance.
キーワード(和) クラスタリング / エントロピー基準 / コサイン類似度 / 競合学習 / skewダイバージェンス
キーワード(英) Clustering / Entropy-based criterion / cosine similarity / Competitive learning / skew-divergence
資料番号 DE2011-16,PRMU2011-47
発行日

研究会情報
研究会 PRMU
開催期間 2011/5/30(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 文書クラスタリングアルゴリズムと基準の比較(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
サブタイトル(和)
タイトル(英) Comparisons of document clustering algorithms and criterion functions
サブタイトル(和)
キーワード(1)(和/英) クラスタリング / Clustering
キーワード(2)(和/英) エントロピー基準 / Entropy-based criterion
キーワード(3)(和/英) コサイン類似度 / cosine similarity
キーワード(4)(和/英) 競合学習 / Competitive learning
キーワード(5)(和/英) skewダイバージェンス / skew-divergence
第 1 著者 氏名(和/英) 内山 俊郎 / Toshio UCHIYAMA
第 1 著者 所属(和/英) 日本電信電話株式会社サイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT CORPORATION
第 2 著者 氏名(和/英) 江田 毅晴 / Takeharu EDA
第 2 著者 所属(和/英) 日本電信電話株式会社サイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT CORPORATION
第 3 著者 氏名(和/英) 別所 克人 / Katsuji BESSHO
第 3 著者 所属(和/英) 日本電信電話株式会社サイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT CORPORATION
第 4 著者 氏名(和/英) 藤村 考 / Ko FUJIMURA
第 4 著者 所属(和/英) 日本電信電話株式会社サイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT CORPORATION
発表年月日 2011-06-07
資料番号 DE2011-16,PRMU2011-47
巻番号(vol) vol.111
号番号(no) 77
ページ範囲 pp.-
ページ数 6
発行日