講演名 2007-03-15
複数のクラシファイアを用いた状況変化に対応可能なオンラインスパムフィルタリングシステム(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
鳴海 建太, 西田 京介, 山内 康一郎,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 現在スパムメールが問題化しており,メールの内容を基にスパムメールか否かを分類するスパムメールフィルタが多数考案されている.その中でもNaive Bayesなどの統計的学習機械を利用したフィルタは多く実用化されており非常に高い精度を実現しているが,多数のメールの学習を行った後はこれまでの傾向とは違うメールの学習が進みにくくなってしまう.日々変わり続けるスパムメールに対処するにはこの問題を解決しなければならない.一方,学習に即応性があるフィルタとしてはNearest Neighborに代表されるインスタンスベースの学習機械を用いたフィルタがあるが,計算量や使用メモリ量が大きいため多くのメールを保持して分類に使用することができない.そこで本研究では,即時的な学習を行うインスタンスベースの学習機械と,過去の大量の知識を記憶する多数の統計的学習機械を組み合わせて分類を行うことで,スパムメールの変化に対応できるフィルタを提案する.また,計算機実験による他の学習機械のフィルタとの比較によって,提案フィルタが変化に対応して優れた分類精度を実現することを示す.
抄録(英) Spam mail is a serious problem now. To eliminate many spam mails, many spam mail filters referring mail bodies have been proposed. The filters with statistical learners (ex. Naive Bayes) are usually used because of its high accuracy. However, it is difficult for the filters to learn mails that have new tendency after learning of many mails. We have to solve this problem to deal with spam mails that are changing day by day. In contrast, there are filters with instance-based learners (ex. Nearest Neighbor) that are able to respond to the changes quickly. However, they are not used widely because they require large computational complexity and memory resources to store many mails. In this study, we proposed a spam filter that is able to respond to various changes by using an instance-based learner that store recent mails and using statistical learners built from enormous past mails. We showed the proposed spam filter achieved higher accuracy than other spam filters in experiments using real dataset.
キーワード(和) スパムメールフィルタ / 多重クラシファイアシステム / 環境変化 / オンライン学習 / ベイズ学習 / インスタンスベース学習
キーワード(英) spam mail filter / multiple classifier systems / concept drift / online learning / baysian learning / instance-based learning
資料番号 PRMU2006-235
発行日

研究会情報
研究会 PRMU
開催期間 2007/3/8(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 複数のクラシファイアを用いた状況変化に対応可能なオンラインスパムフィルタリングシステム(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
サブタイトル(和)
タイトル(英) An online spam filtering system for changing situations using multiple classifiers
サブタイトル(和)
キーワード(1)(和/英) スパムメールフィルタ / spam mail filter
キーワード(2)(和/英) 多重クラシファイアシステム / multiple classifier systems
キーワード(3)(和/英) 環境変化 / concept drift
キーワード(4)(和/英) オンライン学習 / online learning
キーワード(5)(和/英) ベイズ学習 / baysian learning
キーワード(6)(和/英) インスタンスベース学習 / instance-based learning
第 1 著者 氏名(和/英) 鳴海 建太 / Kenta NARUMI
第 1 著者 所属(和/英) 北海道大学大学院情報科学研究科複合情報学専攻
Division of Synergetic Information Science, Graduate School of Information Science and Technology, Hokkaido University
第 2 著者 氏名(和/英) 西田 京介 / Kyousuke NISHIDA
第 2 著者 所属(和/英) 北海道大学大学院情報科学研究科複合情報学専攻
Division of Synergetic Information Science, Graduate School of Information Science and Technology, Hokkaido University
第 3 著者 氏名(和/英) 山内 康一郎 / Koichiro YAMAUCHI
第 3 著者 所属(和/英) 北海道大学大学院情報科学研究科複合情報学専攻
Division of Synergetic Information Science, Graduate School of Information Science and Technology, Hokkaido University
発表年月日 2007-03-15
資料番号 PRMU2006-235
巻番号(vol) vol.106
号番号(no) 605
ページ範囲 pp.-
ページ数 6
発行日