講演名 2012-09-02
競合学習を用いた情報理論的クラスタリング文書クラスタリングにおける基準及びアルゴリズムの比較(テーマセッション,コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
内山 俊郎,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 情報理論的クラスタリング(ITC:information-theoretic clustering)は,特徴分布の類似性によりクラスタをまとめる方法である.近年,クラスタリング基準が明確化され,この基準の最適化によるITCアルゴリズムが提案された.このアルゴリズムは,k-means法においてデータが属するクラスタラベルを更新する時に評価関数としてKL(Kullback Leibler)ダイバージェンスを用いる.最近,この考え方に基づいた,新しいアルゴリズムが提案された.その手法は,ゼロ頻度問題を回避するため,KLダイバージェンスの代わりにその近似であるskewダイバージェンスを用い,学習アルゴリズムとしては,k-means法に対する優位性が確認されている競合学習を用いる.本稿は,前記手法がテキストデータを対象とした多クラス問題において,最大マージンクラスタリングや混合von Mises-Fisher分布に基づく方法などの既存アルゴリズムに比べて優れていることを実験により示した.
抄録(英) Information-theoretic clustering (ITC) finds clusters based on the similarity of the distributions of features. An ITC algorithm based on optimizing the clustering criterion has previously been proposed. This algorithmis reminiscent of the k-means algorithm, but uses Kullback-Leibler (KL) divergence when updating the cluster-labelsof the data. Recently, a novel method, based on the idea above, has been proposed. It uses competitive learning,which is known to be superior to the k-means algorithm. The method also uses skew divergence instead of KLdivergence to avoid the zero-frequency problem. This paper shows that the method performs better than existingclustering algorithms, such as maximum margin clustering and a method based on mixture of von Mises-Fisherdistribution, when applied to text data sets in multiclass problems.
キーワード(和) 情報理論的クラスタリング競合学習 / skewダイバージェンス / カルバック・ライブラー・ダイバージェンス / エントロピー
キーワード(英) Information-theoretic clustering / Competitive learning / Skew divergence / Kullback-Leibler divergence / Entropy
資料番号 PRMU2012-33,IBISML2012-16
発行日

研究会情報
研究会 PRMU
開催期間 2012/8/26(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 競合学習を用いた情報理論的クラスタリング文書クラスタリングにおける基準及びアルゴリズムの比較(テーマセッション,コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
サブタイトル(和)
タイトル(英) Information theoretic clustering using competitive learning Comparsion of criterion functions and algorithms for document clustering
サブタイトル(和)
キーワード(1)(和/英) 情報理論的クラスタリング競合学習 / Information-theoretic clustering
キーワード(2)(和/英) skewダイバージェンス / Competitive learning
キーワード(3)(和/英) カルバック・ライブラー・ダイバージェンス / Skew divergence
キーワード(4)(和/英) エントロピー / Kullback-Leibler divergence
第 1 著者 氏名(和/英) 内山 俊郎 / Toshio UCHIYAMA
第 1 著者 所属(和/英) 日本電信電話株式会社サービスエボリューション研究所
NTT Service Evolution Laboratories
発表年月日 2012-09-02
資料番号 PRMU2012-33,IBISML2012-16
巻番号(vol) vol.112
号番号(no) 197
ページ範囲 pp.-
ページ数 8
発行日