大会名称 |
---|
2009年 情報科学技術フォーラム(FIT) |
大会コ-ド |
F |
開催年 |
2009 |
発行日 |
2009/8/20 |
セッション番号 |
4E |
セッション名 |
検索・分類 |
講演日 |
2009/09/03 |
講演場所(会議室等) |
E会場(9号館1F 915教室) |
講演番号 |
E-008 |
タイトル |
単語間関係を制約として用いた文書クラスタリング |
著者名 |
小出 幸典, 粟飯原 俊介, 石崎 俊, |
キーワード |
文書分類, 制約付き, pLSI |
抄録 |
文書分類タスクでは,単語の出現頻度を元に作成されたベクトルに対し,次元圧縮を施してからクラスタリングを行う手法が一般的である。しかし,文書における単語の出現頻度には偏りがあることが多く,オーバーフィットが起こりやすい。分類対象である文書間にmust-link等の制約を付与することによって,分類精度を上げる手法があることは知られているが,実際には,文書間の関係を推定し直接的に制約を付与することは困難である。本研究では,確率的潜在意味解析pLSIに,辞書を用いた単語間関係の制約を付与することによって,オーバーフィットを避けることが可能な文書分類手法を提案する。 |
本文pdf |
PDF download (391.5KB) |