講演名 2004/10/12
文書の構成要素モデルのアンサンブル学習に基づくテキスト分類(一般)
藤野 昭典, 上田 修功, 斉藤 和巳,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 多クラスのテキスト分類問題に対して,タイトルや概要,本文,引用,リンクなどの文書の各構成要素にモデルを構成し,次いで最大エントロピ原理に原理に基づいて各モデルを最適に結合して分類モデルを構築する手法を提案する.本手法は,構成要素モデルをnaive Bayesモデルにより構成し,訓練データの1点除外交差確認に基づいてそれぞれの構成要素モデルの予測能力の向上を図るとともに,学習された構成要素モデルをその予測能力に応じて適応的に結合することを特徴とする.3つの実データセットを用いた分類実験において,文書全体にnaive Bayes法を適用する従来法に対する提案法の優位性を確認した.
抄録(英) For multiclass text classificatin, we propose a new method that considers document components including title, abstract, main content, references, and links. First, a naive Bayes classifier is designed for each document component, in which smoothing parameters are optimally trained by leave-one-out cross validation scheme to boost the generalization performace. Then, based on the maximum entropy principle, a unified classifier is constracted by combined effectively these component classifiers. Through text classification experiments using three sets of real data, we have confirmed the usefulness of the proposed method.
キーワード(和) 文書分類 / アンサンブル学習 / ナイーブベイズモデル / 最大エントロピー原理
キーワード(英) text classification / ensemble learning / naive Bayes model / maximum entropy principle
資料番号 NC2004-80
発行日

研究会情報
研究会 NC
開催期間 2004/10/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Neurocomputing (NC)
本文の言語 JPN
タイトル(和) 文書の構成要素モデルのアンサンブル学習に基づくテキスト分類(一般)
サブタイトル(和)
タイトル(英) ext Classification Based on Ensemble Learning of Document Component Models
サブタイトル(和)
キーワード(1)(和/英) 文書分類 / text classification
キーワード(2)(和/英) アンサンブル学習 / ensemble learning
キーワード(3)(和/英) ナイーブベイズモデル / naive Bayes model
キーワード(4)(和/英) 最大エントロピー原理 / maximum entropy principle
第 1 著者 氏名(和/英) 藤野 昭典 / Akinori FUJINO
第 1 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 2 著者 氏名(和/英) 上田 修功 / Naonori UEDA
第 2 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 斉藤 和巳 / Kazumi SAITO
第 3 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
発表年月日 2004/10/12
資料番号 NC2004-80
巻番号(vol) vol.104
号番号(no) 349
ページ範囲 pp.-
ページ数 6
発行日