講演抄録/キーワード |
講演名 |
2005-02-24 11:00
ラベルあり・なしデータの最適な結合に基づくパターン分類 ○藤野昭典・上田修功・斉藤和巳(NTT) |
抄録 |
(和) |
分類問題では,ラベルありデータが少数の場合,ラベルなしデータを学習に用いることで分類精度の向上が図られる.パラメトリックアプローチに基づく分類器では,訓練に用いるラベルあり・なしデータの比率が分類精度に影響を与えるため,従来の確率ベースの方法ではその比率を調節する必要があった.提案法では,最大エントロピー原理に基づいて,ラベルあり・なしデータの確率モデルを最適結合することで分類器を構築する.実データを用いた文書の多クラス分類の実験により,従来法と比較して分類精度が向上することを確認した. |
(英) |
Unlabeled data are used to improve the accuracy of classifiers when the number of labeled data is not enough. In probabilistic approach, the ratio of the numbers of labeled and unlabeled data used for training affects the accuracy of the classifiers, and therefore the ratio should be adjusted to effectively use the unlabeled data. We propose a new method for determining the optimal ratio based on maximum entropy principle. Through text classification experiments using three sets of real data, we have confirmed the usefulness of the proposed method. |
キーワード |
(和) |
EMアルゴリズム / 最大エントロピー原理 / ナイーブベイズモデル / 文書分類 / / / / |
(英) |
EM algorithm / maximum entropy principle / naive Bayes model / text classification / / / / |
文献情報 |
信学技報, vol. 104, no. 669, PRMU2004-182, pp. 19-24, 2005年2月. |
資料番号 |
PRMU2004-182 |
発行日 |
2005-02-17 (NLC, PRMU) |
ISSN |
Print edition: ISSN 0913-5685 |
PDFダウンロード |
|
研究会情報 |
研究会 |
PRMU NLC |
開催期間 |
2005-02-24 - 2005-02-25 |
開催地(和) |
国立情報学研究所 |
開催地(英) |
|
テーマ(和) |
学習理論とパターン認識メディア理解,機械学習による自然言語処理・言語処理を利用したメディア理解,一般 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
PRMU |
会議コード |
2005-02-PRMU-NLC |
本文の言語 |
日本語 |
タイトル(和) |
ラベルあり・なしデータの最適な結合に基づくパターン分類 |
サブタイトル(和) |
|
タイトル(英) |
Optimal combination of labeled and unlabeled data for semi-supervised classification |
サブタイトル(英) |
|
キーワード(1)(和/英) |
EMアルゴリズム / EM algorithm |
キーワード(2)(和/英) |
最大エントロピー原理 / maximum entropy principle |
キーワード(3)(和/英) |
ナイーブベイズモデル / naive Bayes model |
キーワード(4)(和/英) |
文書分類 / text classification |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
藤野 昭典 / Akinori Fujino / フジノ アキノリ |
第1著者 所属(和/英) |
日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT) |
第2著者 氏名(和/英/ヨミ) |
上田 修功 / Naonori Ueda / ウエダ ナオノリ |
第2著者 所属(和/英) |
日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT) |
第3著者 氏名(和/英/ヨミ) |
斉藤 和巳 / Kazumi Saito / サイトウ カズミ |
第3著者 所属(和/英) |
日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2005-02-24 11:00:00 |
発表時間 |
30分 |
申込先研究会 |
PRMU |
資料番号 |
NLC2004-100, PRMU2004-182 |
巻番号(vol) |
vol.104 |
号番号(no) |
no.667(NLC), no.669(PRMU) |
ページ範囲 |
pp.19-24 |
ページ数 |
6 |
発行日 |
2005-02-17 (NLC, PRMU) |