講演抄録/キーワード |
講演名 |
2006-03-16 10:20
統計的決定理論に基づく複数のクラスに属する文書の分類方法に関する一考察 ○前田康成・吉田秀樹・藤原祥隆(北見工大)・松嶋敏泰(早大) |
抄録 |
(和) |
近年,人工知能の自然言語処理の分野において,複数クラスに属する文書の分類問題に関する研究が数多く行われている.文書の生成に確率モデルを採用した従来研究では確率モデルの未知パラメータの推定と文書分類という二つの問題に分けて検討しており,一つの統計的決定問題として定式化していない.また,文書内におけるクラスの変化も十分に表現できないモデルである.そこで,本研究ではクラスの変化が表現可能なモデルを採用し,統計的決定理論に基づき一つの統計的決定問題として定式化し直すことによって,誤り率をベイズ基準のもとで最小にする分類方法を導出するとともに,計算量を削減した近似アルゴリズムも提案する. |
(英) |
In this paper we treat multi-topic document classification problem. In previous researches some theoretical optimality is guaranteed when the number of data for learning is infinite. We propose new multi-topic document classification methods that minimize error rate with reference to the Bayes criterion when the number of data for learning is finite. And we also propose approximate algorithms in order to reduce computational complexity. |
キーワード |
(和) |
文書分類 / 複数のクラスに属する文書 / 統計的決定理論 / 誤り率 / / / / |
(英) |
document classification / multi-topic document / statistical decision theory / error rate / / / / |
文献情報 |
信学技報, vol. 105, no. 661, IT2005-89, pp. 147-152, 2006年3月. |
資料番号 |
IT2005-89 |
発行日 |
2006-03-09 (IT, ISEC, WBS) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|