講演名 2009-03-03
PrBL:スパムメールのための確率的なブラックリストの提案(トラヒック)
森 達哉,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) スパムメールの急増に伴い,メール配送処理系の負荷集中が顕著な問題となっている.スパムメールに要する配送処理負荷を軽減する手段としてDNSBL(DNS BlackList)に代表されるIP reputationサービスが有効なメッセージ受信制限手段として広く利用されている.これらの手段はIPアドレスの参照のみで処理が可能なため,スケーラビリティに優れる手法である.一方,これらのアプローチには根源的な制限が存在する.すなわち,柔軟性,拡張性,局所性,そしてスパムと通常の双方を取り入れたモデルの欠如である.本論文はこれらの制限を統計的な手法によって解決する手段を提案する.その手法をPrBL(確率的ブラックリスト)と呼ぶことにする.主要なアイディアは送信元ホストの地理的位置,論理的位置,TCPヘッダのシグネチャ等のメッセージの中身と独立な固有な特徴量を利用することであり,機械学習の手法によって送信ホストを分類する.ある企業網で4ヶ月にわたって計測したSMTPログを用いて本方式の性能を評価した結果について報告する.また,PrBLは広く使われているDNSBLと比較して高精度なフィルタリングが可能であることを示す.
抄録(英) Recent drastic increase in the number of spam messages has caused significant overload on e-mail delivery systems. IP reputation services such as DNSBL (DNS BlackList) have been widely used as an effective way to lower the overhead of e-mail delivery system by restricting smtp connections based on the reputation listed in the blacklists. Since those reputation services require only IP address lookups, they are the most light-weight and scalable anti-spam solution. However, these approaches have fundamental limitations, namely, flexibility, extensibility, locality, and the explicit modeling of spamicity and legitimacy. In this work, we attempt to relax the limitations of existing IP repuration-based approaches by leveraging statistical technique. Hence, we call our method PrBL (probabilistic blacklist). The key idea of our approach is to make use of the property of e-mail senders in terms of geographical and logical network locations, and the intrinsic signatures derived from the analysis of TCP headers, which are independent of e-mail content. Machine-learning tool is used to establish the probabilistic classification of e-mail senders. We validate the performance of PrBL through the analysis of SMTP logs collected at an enterprise e-mail server over 4-months of period. We also show that by tuning the policy parameter, PrBL can establish much better accuracy (i.e, less false positives), compared to the widely used DNSBLs.
キーワード(和) スパム / スパマー / フィルタリング / DNSBL / ナイーブベイズ
キーワード(英) spam / spammer / filtering / DNSBL / supervised learning / Naive Bayes
資料番号 NS2008-146
発行日

研究会情報
研究会 NS
開催期間 2009/2/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Network Systems(NS)
本文の言語 ENG
タイトル(和) PrBL:スパムメールのための確率的なブラックリストの提案(トラヒック)
サブタイトル(和)
タイトル(英) PrBL: Probabilistic BlackList for E-mail Spammers
サブタイトル(和)
キーワード(1)(和/英) スパム / spam
キーワード(2)(和/英) スパマー / spammer
キーワード(3)(和/英) フィルタリング / filtering
キーワード(4)(和/英) DNSBL / DNSBL
キーワード(5)(和/英) ナイーブベイズ / supervised learning
第 1 著者 氏名(和/英) 森 達哉 / Tatsuya MORI
第 1 著者 所属(和/英) NTTサービスインテグレーション基盤研究所
NTT Service Integration Laboratories
発表年月日 2009-03-03
資料番号 NS2008-146
巻番号(vol) vol.108
号番号(no) 457
ページ範囲 pp.-
ページ数 6
発行日