講演名 2007-05-25
単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用)
別所 克人, 内山 俊郎, 片岡 良治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来のテキスト分類方式は、文書をベクトルとして表現し、コサイン類似度やユークリッド距離のような双方向性のある尺度を、ベクトル間の近さのベースと考えるものが多い。これに対し本稿では、カルバック・ライブラー距離という双方向性のない尺度をテキスト分類に導入する。単語ベクトル間の距離尺度としてカルバック・ライブラー距離を用いると、コサイン類似度を用いた場合と比べ、単語間の連想の様相が変わる。本稿では、この性質を利用し、従来のコサイン類似度やユークリッド距離をベースとする分類方式と、カルバック・ライブラー距離をベースとする分類方式を組み合わせる方式を提案する。評価実験の結果、組み合わせることにより、従来方式よりも精度が向上することを確認した。
抄録(英) Most of conventional text classification methods use symmetric measures such as cosine similarity or Euclidean metric of feature vectors derived from documents. This paper introduces to use Kullback-Leibler metric, which is non-symmetric, of the vectors for the text classification. We found that Kullback-Leibler metric instead of cosine similarity can reveal different aspect of association between words. Considering this property, this paper proposes the combined classification method which uses both cosine-Euclidean measure and KL metric. The experimental results showed that the proposed method improves classification accuracies of the method using only the cosine-Euclidean measure.
キーワード(和) 概念ベクトル / カルバック・ライブラー距離 / テキスト分類
キーワード(英) Concept Vector / Kullback-Leibler Metric / Text Classification
資料番号 PRMU2007-15,MI2007-15
発行日

研究会情報
研究会 PRMU
開催期間 2007/5/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用)
サブタイトル(和)
タイトル(英) Text Classification Method Based on Hierarchical Relations among Words
サブタイトル(和)
キーワード(1)(和/英) 概念ベクトル / Concept Vector
キーワード(2)(和/英) カルバック・ライブラー距離 / Kullback-Leibler Metric
キーワード(3)(和/英) テキスト分類 / Text Classification
第 1 著者 氏名(和/英) 別所 克人 / Katsuji BESSHO
第 1 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT Corporation
第 2 著者 氏名(和/英) 内山 俊郎 / Toshio UCHIYAMA
第 2 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 片岡 良治 / Ryoji KATAOKA
第 3 著者 所属(和/英) 日本電信電話株式会社NTTサイバーソリューション研究所
NTT Cyber Solutions Laboratories, NTT Corporation
発表年月日 2007-05-25
資料番号 PRMU2007-15,MI2007-15
巻番号(vol) vol.107
号番号(no) 57
ページ範囲 pp.-
ページ数 6
発行日