講演名 | 2007-05-25 単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用) 別所 克人, 内山 俊郎, 片岡 良治, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 従来のテキスト分類方式は、文書をベクトルとして表現し、コサイン類似度やユークリッド距離のような双方向性のある尺度を、ベクトル間の近さのベースと考えるものが多い。これに対し本稿では、カルバック・ライブラー距離という双方向性のない尺度をテキスト分類に導入する。単語ベクトル間の距離尺度としてカルバック・ライブラー距離を用いると、コサイン類似度を用いた場合と比べ、単語間の連想の様相が変わる。本稿では、この性質を利用し、従来のコサイン類似度やユークリッド距離をベースとする分類方式と、カルバック・ライブラー距離をベースとする分類方式を組み合わせる方式を提案する。評価実験の結果、組み合わせることにより、従来方式よりも精度が向上することを確認した。 |
抄録(英) | Most of conventional text classification methods use symmetric measures such as cosine similarity or Euclidean metric of feature vectors derived from documents. This paper introduces to use Kullback-Leibler metric, which is non-symmetric, of the vectors for the text classification. We found that Kullback-Leibler metric instead of cosine similarity can reveal different aspect of association between words. Considering this property, this paper proposes the combined classification method which uses both cosine-Euclidean measure and KL metric. The experimental results showed that the proposed method improves classification accuracies of the method using only the cosine-Euclidean measure. |
キーワード(和) | 概念ベクトル / カルバック・ライブラー距離 / テキスト分類 |
キーワード(英) | Concept Vector / Kullback-Leibler Metric / Text Classification |
資料番号 | PRMU2007-15,MI2007-15 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 2007/5/17(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | 単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用) |
サブタイトル(和) | |
タイトル(英) | Text Classification Method Based on Hierarchical Relations among Words |
サブタイトル(和) | |
キーワード(1)(和/英) | 概念ベクトル / Concept Vector |
キーワード(2)(和/英) | カルバック・ライブラー距離 / Kullback-Leibler Metric |
キーワード(3)(和/英) | テキスト分類 / Text Classification |
第 1 著者 氏名(和/英) | 別所 克人 / Katsuji BESSHO |
第 1 著者 所属(和/英) | 日本電信電話株式会社NTTサイバーソリューション研究所 NTT Cyber Solutions Laboratories, NTT Corporation |
第 2 著者 氏名(和/英) | 内山 俊郎 / Toshio UCHIYAMA |
第 2 著者 所属(和/英) | 日本電信電話株式会社NTTサイバーソリューション研究所 NTT Cyber Solutions Laboratories, NTT Corporation |
第 3 著者 氏名(和/英) | 片岡 良治 / Ryoji KATAOKA |
第 3 著者 所属(和/英) | 日本電信電話株式会社NTTサイバーソリューション研究所 NTT Cyber Solutions Laboratories, NTT Corporation |
発表年月日 | 2007-05-25 |
資料番号 | PRMU2007-15,MI2007-15 |
巻番号(vol) | vol.107 |
号番号(no) | 57 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |