大会名称
2019年 情報科学技術フォーラム(FIT)
大会コ-ド
F
開催年
2019
発行日
2019-08-20
セッション番号
2g
セッション名
知能システム
講演日
2019/09/03
講演場所(会議室等)
一般教育棟 A棟 A42
講演番号
CF-012
タイトル
圧縮距離と分散表現を用いた電子メールのクラスタリング
著者名
佐藤 哲
キーワード
圧縮距離, 分散表現, 機械学習
抄録
電子メールのコンテンツは,自然言語に由来する表記ゆれ,引用等による長文書化,HTMLメールにより挿入される記号,機械的に生成された独自用語を含むログやアラートメールなど多様な要素を持ち,メール同士をコンテンツレベルで比較することが難しい.比較するためには,多様性に対応する汎用的なデータ分析技術が必要である.そこで本発表では,判断に大きなサイズのデータが必要だが学習を必要としない圧縮距離と,小さなサイズのデータに対しても有効だが学習が必要な分散表現技術を組み合わせることで,2つの手法の短所を相互に補い,多様なコンテンツに基づき電子メールを分類する汎用的な手法を提案する.
本文pdf
PDF download (670.8KB)