講演名 2020-03-09
迷惑メール分類のための辞書にない単語の特徴解析
天満 誠也(山口大), 中谷 和哉(山口大), 杉井 学(山口大), 松野 浩嗣(山口大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テキストの下処理を改良することでフィルタリング性能の向上を試みた.下処理では,目的とする情報とは関係のないいわゆるノイズの適切な除去が必要となるが,メールフィルタリングの場合,記号や略語などの辞書に載っていない単語の扱い方に対する議論は十分に行われていない.そこで,これらの単語の特徴解析を受信日時の古いメールと新しいメールのそれぞれで行うことで,分類に重要であることを明らかにした.また,フィルタリング性能が向上することをbsfilterを用いた分類実験によって確認した.これらの結果から,辞書に載っていない単語を未処理のまま利用する単純で実際的な手法によって,スパム送信者がフィルタに特徴を捉えられないように記号やスペースで単語を分断した工夫を逆手にとり,フィルタリング性能を向上できることを示した.
抄録(英) In this study, we discuss preparing processes of text for mail filtering, and improve the accuracy of the mail classification. It is necessary to remove noise, which can be symbols and abbreviated words, from the mail data appropriately, but the treatment of these words have not been investigated carefully. We found that features of strange word is important for mail filtering by comparing an old and a new set of mails. We also confirmed that the accuracy of mail filtering can be improved by bsfilter with strange words. The result suggested that we can take advantage of the features of spam mails using strange words for mail filtering.
キーワード(和) メールフィルタリング / テキストの下処理 / 辞書にない単語
キーワード(英) mail filtering / preparing processes of text / strange words
資料番号 MSS2019-60
発行日 2020-03-02 (MSS)

研究会情報
研究会 MSS / NLP
開催期間 2020/3/9(から2日開催)
開催地(和) やすらぎの宿 蒲郡荘
開催地(英)
テーマ(和) SICE-DES研究会,IEICE-MSS研究会,IEICE-NLP研究会の3研究会併催,一般およびWork In Progress(WIP) ※(WIPセッションはDES,MSSのみ)
テーマ(英) SICE-DES, IEICE-MSS, IEICE-NLP
委員長氏名(和) 髙井 重昌(阪大) / 黒川 弘章(東京工科大)
委員長氏名(英) Shigemasa Takai(Osaka Univ.) / Hiroaki Kurokawa(Tokyo Univ. of Tech.)
副委員長氏名(和) 尾崎 敦夫(阪工大) / 夏目 季代久(九工大)
副委員長氏名(英) Atsuo Ozaki(Osaka Inst. of Tech.) / Kiyohisa Natsume(Kyushu Inst. of Tech.)
幹事氏名(和) 金澤 尚史(阪大) / 小林 孝一(北大) / 木村 貴幸(日本工大) / 立野 勝巳(九工大)
幹事氏名(英) Takahumi Kanazawa(Osaka Univ.) / Koichi Kobayashi(Hokkaido Univ.) / Takayuki Kimura(Nippon Inst. of Tech.) / Katsumi Tateno(Kyushu Inst. of Tech.)
幹事補佐氏名(和) 林 直樹(阪大) / 島田 裕(埼玉大) / 佐村 俊和(山口大)
幹事補佐氏名(英) Naoki Hayashi(Osaka Univ.) / Yutaka Shimada(Saitama Univ.) / Toshikaza Samura(Yamaguchi Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Mathematical Systems Science and its applications / Technical Committee on Nonlinear Problems
本文の言語 JPN
タイトル(和) 迷惑メール分類のための辞書にない単語の特徴解析
サブタイトル(和)
タイトル(英) Feature Analysis of Strange Words for Spam Mail Filtering
サブタイトル(和)
キーワード(1)(和/英) メールフィルタリング / mail filtering
キーワード(2)(和/英) テキストの下処理 / preparing processes of text
キーワード(3)(和/英) 辞書にない単語 / strange words
第 1 著者 氏名(和/英) 天満 誠也 / Seiya Temma
第 1 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ.)
第 2 著者 氏名(和/英) 中谷 和哉 / Kazuya Nakatani
第 2 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ.)
第 3 著者 氏名(和/英) 杉井 学 / Manabu Sugii
第 3 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ.)
第 4 著者 氏名(和/英) 松野 浩嗣 / Hiroshi Matsuno
第 4 著者 所属(和/英) 山口大学(略称:山口大)
Yamaguchi University(略称:Yamaguchi Univ.)
発表年月日 2020-03-09
資料番号 MSS2019-60
巻番号(vol) vol.119
号番号(no) MSS-470
ページ範囲 pp.13-18(MSS),
ページ数 6
発行日 2020-03-02 (MSS)