講演名 2005-02-24
ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
藤野 昭典, 上田 修功, 斉藤 和巳,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 分類問題では, ラベルありデータが少数の場合, ラベルなしデータを学習に用いることで分類精度の向上が図られる.パラメトリックアプローチに基づく分類器では, 訓練に用いるラベルあり・なしデータの比率が分類精度に影響を与えるため, 従来の確率ベースの方法ではその比率を調節する必要があった.提案法では, 最大エントロピー原理に基づいて, ラベルあり・なしデータの確率モデルを最適結合することで分類器を構築する.実データを用いた文書の多クラス分類の実験により, 従来法と比較して分類精度が向上することを確認した.
抄録(英) Unlabeled data are used to improve the accuracy of classifiers when the number of labeled data is not enough. In probabilistic approach, the ratio of the numbers of labeled and unlabeled data used for training affects the accuracy of the classifiers, and therefore the ratio should be adjusted to effectively use the unlabeled data. We propose a new method for determining the optimal ratio based on maximum entropy principle. Through text classification experiments using three sets of real data, we have confirmed the usefulness of the proposed method.
キーワード(和) EMアルゴリズム / 最大エントロピー原理 / ナイーブベイズモデル / 文書分類
キーワード(英) EM algorithm / maximum entropy principle / naive Bayes model / text classification
資料番号 NLC2004-100,PRMU2004-182
発行日

研究会情報
研究会 PRMU
開催期間 2005/2/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
サブタイトル(和)
タイトル(英) Optimal combination of labeled and unlabeled data for semi-supervised classification
サブタイトル(和)
キーワード(1)(和/英) EMアルゴリズム / EM algorithm
キーワード(2)(和/英) 最大エントロピー原理 / maximum entropy principle
キーワード(3)(和/英) ナイーブベイズモデル / naive Bayes model
キーワード(4)(和/英) 文書分類 / text classification
第 1 著者 氏名(和/英) 藤野 昭典 / Akinori FUJINO
第 1 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 2 著者 氏名(和/英) 上田 修功 / Naonori UEDA
第 2 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
第 3 著者 氏名(和/英) 斉藤 和巳 / Kazumi SAITO
第 3 著者 所属(和/英) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所
NTT Communication Science Laboratories, NTT Corporation
発表年月日 2005-02-24
資料番号 NLC2004-100,PRMU2004-182
巻番号(vol) vol.104
号番号(no) 669
ページ範囲 pp.-
ページ数 6
発行日