講演名 | 2005-02-24 ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般) 藤野 昭典, 上田 修功, 斉藤 和巳, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 分類問題では, ラベルありデータが少数の場合, ラベルなしデータを学習に用いることで分類精度の向上が図られる.パラメトリックアプローチに基づく分類器では, 訓練に用いるラベルあり・なしデータの比率が分類精度に影響を与えるため, 従来の確率ベースの方法ではその比率を調節する必要があった.提案法では, 最大エントロピー原理に基づいて, ラベルあり・なしデータの確率モデルを最適結合することで分類器を構築する.実データを用いた文書の多クラス分類の実験により, 従来法と比較して分類精度が向上することを確認した. |
抄録(英) | Unlabeled data are used to improve the accuracy of classifiers when the number of labeled data is not enough. In probabilistic approach, the ratio of the numbers of labeled and unlabeled data used for training affects the accuracy of the classifiers, and therefore the ratio should be adjusted to effectively use the unlabeled data. We propose a new method for determining the optimal ratio based on maximum entropy principle. Through text classification experiments using three sets of real data, we have confirmed the usefulness of the proposed method. |
キーワード(和) | EMアルゴリズム / 最大エントロピー原理 / ナイーブベイズモデル / 文書分類 |
キーワード(英) | EM algorithm / maximum entropy principle / naive Bayes model / text classification |
資料番号 | NLC2004-100,PRMU2004-182 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 2005/2/17(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | ラベルあり・なしデータの最適な結合に基づくパターン分類(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般) |
サブタイトル(和) | |
タイトル(英) | Optimal combination of labeled and unlabeled data for semi-supervised classification |
サブタイトル(和) | |
キーワード(1)(和/英) | EMアルゴリズム / EM algorithm |
キーワード(2)(和/英) | 最大エントロピー原理 / maximum entropy principle |
キーワード(3)(和/英) | ナイーブベイズモデル / naive Bayes model |
キーワード(4)(和/英) | 文書分類 / text classification |
第 1 著者 氏名(和/英) | 藤野 昭典 / Akinori FUJINO |
第 1 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 2 著者 氏名(和/英) | 上田 修功 / Naonori UEDA |
第 2 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 3 著者 氏名(和/英) | 斉藤 和巳 / Kazumi SAITO |
第 3 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
発表年月日 | 2005-02-24 |
資料番号 | NLC2004-100,PRMU2004-182 |
巻番号(vol) | vol.104 |
号番号(no) | 669 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |