HTTP通信を特徴とした機械学習に基づくマルウェア感染端末検知法と悪性良性混在データを用いた長期経時劣化評価

熊谷 充敏; 岡野 靖; 神谷 和憲; 谷川 真樹

講演名	2017-03-13 HTTP通信を特徴とした機械学習に基づくマルウェア感染端末検知法と悪性良性混在データを用いた長期経時劣化評価熊谷充敏(NTT), 岡野靖(NTT), 神谷和憲(NTT), 谷川真樹(NTT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年，マルウェア感染を未然に防ぐことは困難となっており，事後対策の重要性が増している．感染後の通信を検知するために，マルウェアの通信の特徴をリスト化し，検知対象の通信ログと突合することで感染端末を検知する手法が広く用いられている．しかし，これらの手法は未知の通信パターンに対する検知可能性が低いという問題があった．本稿では，機械学習技術をログ分析に用いることで，この問題を解決する新たな感染端末検知手法を提案する．提案法では，HTTP レベルの通信ログから特徴を抽出し，ロジスティック回帰による分析を行うことでマルウェア感染端末を検知する．特に，特徴選択法の一種であるスパース正則化学習法と，ヒューリスティックな特徴の集約処理を併用することで，分類に用いる特徴の数を大幅に削減しながら検知精度を向上させる．また，実運用および実環境に適した新たな評価法も提案する．具体的には，実際の感染端末にはマルウェアの通信だけでなく正規ユーザの通信も混在することに着目し，両通信を混在させたテストデータを作成し手法の評価を行う．加えて，実運用では，進化し続けるマルウェアを精度よく検知できることが重要であるため，検知精度の時間的安定性も評価する．このような状況において，提案法は既存法に比べ，長期にわたり精度よくマルウェア感染端末を検知可能であることを示す．
抄録(英)	The importance of post-infection countermeasures has greatly increased. Such countermeasures include generating blacklist based on communications made by malware. However, it is difficult for such methods to detect new type of communications made by sophisticated malware. In this paper, we propose a novel method for detecting malware-infected hosts by analyzing their communications based on machine learning. With the proposed method, logistic regression is used as classifiers, and features are extracted from HTTP traffic. The proposed method can eliminate the number of features while maintaining the detection performance by incorporating both sparse learning and feature summarization heuristics. In addition, we propose a novel evaluation procedure considering practical operation. Considering that actual malware-infected hosts generate not only malicious communications which are caused by malware but also normal communications which are caused by legitimate users, we mix malicious communications and normal communications for creating malicious testing data. Furthermore, we evaluate the long-time detection performance since it is important to detect malware-infected hosts correctly over a long period of time. The effectiveness of the proposed method is demonstrated with experiments using HTTP traffic data.
キーワード(和)	機械学習 / マルウェア / 感染端末 / 経時劣化評価 / 混在データ
キーワード(英)	machine learning / malware / malware-infected host / long-time evaluation for detection performance / mixed data
資料番号	ICSS2016-51
発行日	2017-03-06 (ICSS)

研究会情報
研究会	ICSS / IPSJ-SPT
開催期間	2017/3/13(から2日開催)
開催地（和）	長崎県立大学シーボルト校
開催地（英）	University of Nagasaki
テーマ（和）	情報通信システムセキュリティ，一般
テーマ（英）	System Security, etc.
委員長氏名（和）	三宅優(KDDI研)
委員長氏名（英）	Yutaka Miyake(KDDI R&D Labs.)
副委員長氏名（和）	白石善明(神戸大) / 植田武(三菱電機)
副委員長氏名（英）	Yoshiaki Shiraishi(Kobe Univ.) / Takeshi Ueda(Mitsubishi Electric)
幹事氏名（和）	高倉弘喜(NII) / 吉岡克成(横浜国大)
幹事氏名（英）	Hiroki Takakura(NII) / Katsunari Yoshioka(Yokohama National Univ.)
幹事補佐氏名（和）	神谷和憲(NTT) / 笠間貴弘(NICT)
幹事補佐氏名（英）	Kazunori Kamiya(NTT) / Takahiro Kasama(NICT)

講演論文情報詳細
申込み研究会	Technical Committee on Information and Communication System Security / Special Interest Group on Security Psychology and Trust
本文の言語	JPN
タイトル（和）	HTTP通信を特徴とした機械学習に基づくマルウェア感染端末検知法と悪性良性混在データを用いた長期経時劣化評価
サブタイトル（和）
タイトル（英）	Supervised Classification for Detecting Malware Infected Host in HTTP Traffic and Long-time Evaluation for Detection Performance using Mixed Data
サブタイトル（和）
キーワード(1)（和/英）	機械学習 / machine learning
キーワード(2)（和/英）	マルウェア / malware
キーワード(3)（和/英）	感染端末 / malware-infected host
キーワード(4)（和/英）	経時劣化評価 / long-time evaluation for detection performance
キーワード(5)（和/英）	混在データ / mixed data
第 1 著者氏名（和/英）	熊谷充敏 / Atsutoshi Kumagai
第 1 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 2 著者氏名（和/英）	岡野靖 / Yasushi Okano
第 2 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 3 著者氏名（和/英）	神谷和憲 / Kazunori Kamiya
第 3 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
第 4 著者氏名（和/英）	谷川真樹 / Masaki Tanikawa
第 4 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NTT Corporation(略称：NTT)
発表年月日	2017-03-13
資料番号	ICSS2016-51
巻番号（vol）	vol.116
号番号（no）	ICSS-522
ページ範囲	pp.43-48(ICSS),
ページ数	6
発行日	2017-03-06 (ICSS)