講演抄録/キーワード |
講演名 |
2011-11-11 09:10
文脈木重み付け法を用いた文書分類 ○小畑智広・池上裕之・小林 学・坂下善彦(湘南工科大) NLP2011-110 |
抄録 |
(和) |
文書分類問題は,ベクトル空間モデルやサポートベクターマシンなど様々な手法により研究されてきた.一方,優れたデータ圧縮法として文脈木重み付け法が提案されており,これを文書分類に適用する手法が提案されている.本研究では,各カテゴリ中の文書がそれぞれ同一の確率モデルから生起することを仮定し,文脈木重み付け法を用いた文書分類手法を検討する.また新聞データを用いた計算機実験を行い,正分類率によりその有効性を示す. |
(英) |
The Text Classification problem has been investigated by various techniques, such as a vector space model, a support vector machine and so on. On the other hand, the Context-Tree Weighting algorithm has been proposed as an outstanding data compression method, and the technique of applying this to the text classification has been proposed. In this paper, we consider the classification method using the Context-Tree Weighting algorithm. Then we examine the text classification method which assumed that each document of a category arises from one stochastic model. Moreover, the experimental results using a newspaper data set are shown, and we show the efficiency of the text classification using CTW. |
キーワード |
(和) |
文書分類 / 文脈木重み付け法 / データ圧縮 / サポートベクターマシン / / / / |
(英) |
Test classification / Context-Tree Weighting algorithm / Data compression / Support vector machine / / / / |
文献情報 |
信学技報, vol. 111, no. 276, NLP2011-110, pp. 103-108, 2011年11月. |
資料番号 |
NLP2011-110 |
発行日 |
2011-11-02 (NLP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLP2011-110 |