講演抄録/キーワード |
講演名 |
2007-05-25 09:00
単語間の階層関係に基づくテキスト分類方式 ○別所克人・内山俊郎・片岡良治(NTT) PRMU2007-15 MI2007-15 |
抄録 |
(和) |
従来のテキスト分類方式は、文書をベクトルとして表現し、コサイン類似度やユークリッド距離のような双方向性のある尺度を、ベクトル間の近さのベースと考えるものが多い。これに対し本稿では、カルバック・ライブラー距離という双方向性のない尺度をテキスト分類に導入する。単語ベクトル間の距離尺度としてカルバック・ライブラー距離を用いると、コサイン類似度を用いた場合と比べ、単語間の連想の様相が変わる。本稿では、この性質を利用し、従来のコサイン類似度やユークリッド距離をベースとする分類方式と、カルバック・ライブラー距離をベースとする分類方式を組み合わせる方式を提案する。評価実験の結果、組み合わせることにより、従来方式よりも精度が向上することを確認した。 |
(英) |
Most of conventional text classification methods use symmetric measures such as cosine similarity or Euclidean metric of feature vectors derived from documents. This paper introduces to use Kullback-Leibler metric, which is non-symmetric, of the vectors for the text classification. We found that Kullback-Leibler metric instead of cosine similarity can reveal different aspect of association between words. Considering this property, this paper proposes the combined classification method which uses both cosine-Euclidean measure and KL metric. The experimental results showed that the proposed method improves classification accuracies of the method using only the cosine-Euclidean measure. |
キーワード |
(和) |
概念ベクトル / カルバック・ライブラー距離 / テキスト分類 / / / / / |
(英) |
Concept Vector / Kullback-Leibler Metric / Text Classification / / / / / |
文献情報 |
信学技報, vol. 107, no. 57, PRMU2007-15, pp. 79-84, 2007年5月. |
資料番号 |
PRMU2007-15 |
発行日 |
2007-05-17 (PRMU, MI) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2007-15 MI2007-15 |