講演名 2016-07-06
不均衡な2値分類のための半教師あり学習法
藤野 昭典(NTT), 上田 修功(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,正例と負例のサンプル数が不均衡な2値分類に対処する半教師あり学習法を提案する.不均衡な2値分類のタスクでは,性能評価の指標の一つとしてROC曲線に基づくAUC値がよく用いられており,ラベルありサンプルに対するAUC値を最大化するように2値分類器を学習させる教師あり学習の手法が開発されてきた.提案法では,AUC最大化学習と生成モデルを組み合わせることで,ラベルありサンプルに対して大きなAUC値を与え,ラベルなしサンプルから得られる分布情報を生成モデルを用いて効果的に学習する分類器を設計する.提案法の効果を確認するため,生成モデルとしてナイーブベイズモデルを用いてテキスト分類に適用した.2つのベンチマークデータを用いた評価実験で従来の識別モデル,生成モデル,両モデルのハイブリッドに基づく半教師あり学習法と比較した結果,不均衡な2値分類の問題に対して,提案法では高い汎化性能をもつ分類器が得られることを確認した.また,半教師ありAUC最大化学習に生成モデルを用いることの効果を実験で確認した.
抄録(英) This paper presents a semi-supervised learning method for imbalanced binary classification where the number of positive samples differs largely from that of negative samples. The area under the ROC curve (AUC) is often used as an effective measure for evaluating binary classifiers in such imbalanced tasks, and thus AUC-optimized classifiers have been developed which were trained to maximize an AUC value measured on a labeled sample set. The proposed method utilizes generative models for assisting the incorporation of unlabeled samples in AUC-optimized classifiers. We applied the proposed method to text classification by employing a naive Bayes model as the generative model. Using two benchmark datasets, we confirmed experimentally that the proposed method was more useful for imbalanced binary classification than conventional semi-supervised learning methods based on discriminative, generative, and those hybrid models. We also confirmed the effect of using generative models for semi-supervised learning of AUC-optimized classifiers.
キーワード(和) 半教師あり学習 / AUC最大化 / 生成モデル / ナイーブベイズモデル / テキスト分類
キーワード(英) Semi-supervised Learning / AUC Maximization / Generative Model / Naive Bayes Model / Text Classification
資料番号 IBISML2016-3
発行日 2016-06-28 (IBISML)

研究会情報
研究会 NC / IPSJ-BIO / IBISML / IPSJ-MPS
開催期間 2016/7/4(から3日開催)
開催地(和) 沖縄科学技術大学院大学
開催地(英) Okinawa Institute of Science and Technology
テーマ(和) 機械学習によるバイオデータマインニング、一般
テーマ(英) Machine Learning Approach to Biodata Mining, and General
委員長氏名(和) 佐藤 茂雄(東北大) / / 福水 健次(統計数理研)
委員長氏名(英) Shigeo Sato(Tohoku Univ.) / / Kenji Fukumizu(ISM)
副委員長氏名(和) 萩原 将文(慶大) / / 杉山 将(東大) / 鹿島 久嗣(京大)
副委員長氏名(英) Masafumi Hagiwara(Keio Univ.) / / Masashi Sugiyama(Univ. of Tokyo) / Hisashi Kashima(Kyoto Univ.)
幹事氏名(和) 田中 宏喜(京都産大) / 青西 亨(東工大) / / 津田 宏治(東大) / 竹内 一郎(名工大)
幹事氏名(英) Hiroki Tanaka(Kyoto Sangyo Univ.) / Toru Aonishi(Tokyo Inst. of Tech.) / / Koji Tsuda(Univ. of Tokyo) / Ichiro Takeuchi(Nagoya Inst. of Tech.)
幹事補佐氏名(和) 秋間 学尚(東北大) / 篠沢 佳久(慶大) / / 神嶌 敏弘(産総研) / 岩田 具治(NTT)
幹事補佐氏名(英) Hisanao Akima(Tohoku Univ.) / Yoshihisa Shinozawa(Keio Univ.) / / Toshihiro Kamishima(AIST) / Tomoharu Iwata(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Neurocomputing / Special Interest Group on Bioinformatics and Genomics / Technical Committee on Infomation-Based Induction Sciences and Machine Learning / Special Interest Group on Mathematical Modeling and Problem Solving
本文の言語 JPN
タイトル(和) 不均衡な2値分類のための半教師あり学習法
サブタイトル(和)
タイトル(英) A Semi-supervised Learning Method for Imbalanced Binary Classification
サブタイトル(和)
キーワード(1)(和/英) 半教師あり学習 / Semi-supervised Learning
キーワード(2)(和/英) AUC最大化 / AUC Maximization
キーワード(3)(和/英) 生成モデル / Generative Model
キーワード(4)(和/英) ナイーブベイズモデル / Naive Bayes Model
キーワード(5)(和/英) テキスト分類 / Text Classification
第 1 著者 氏名(和/英) 藤野 昭典 / Akinori Fujino
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 2 著者 氏名(和/英) 上田 修功 / Naonori Ueda
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2016-07-06
資料番号 IBISML2016-3
巻番号(vol) vol.116
号番号(no) IBISML-121
ページ範囲 pp.195-200(IBISML),
ページ数 6
発行日 2016-06-28 (IBISML)