大会名称
2009年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2009
発行日
2009/8/20
セッション番号
4E
セッション名
検索・分類
講演日
2009/09/03
講演場所(会議室等)
E会場(9号館1F 915教室)
講演番号
E-008
タイトル
単語間関係を制約として用いた文書クラスタリング
著者名
小出 幸典粟飯原 俊介石崎 俊
キーワード
文書分類, 制約付き, pLSI
抄録
文書分類タスクでは,単語の出現頻度を元に作成されたベクトルに対し,次元圧縮を施してからクラスタリングを行う手法が一般的である。しかし,文書における単語の出現頻度には偏りがあることが多く,オーバーフィットが起こりやすい。分類対象である文書間にmust-link等の制約を付与することによって,分類精度を上げる手法があることは知られているが,実際には,文書間の関係を推定し直接的に制約を付与することは困難である。本研究では,確率的潜在意味解析pLSIに,辞書を用いた単語間関係の制約を付与することによって,オーバーフィットを避けることが可能な文書分類手法を提案する。
本文pdf
PDF download (391.5KB)