講演名 2012-02-28
ベイズ分類器による文書の有害確率を素性に用いたSVMによる有害文書分類手法(「クラウドソーシング」及び一般)
藤井 雄太郎, 吉村 卓也, 伊藤 孝行,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では, SVMで必要な文書の素性としてベイズ分類器の評価値を利用することで,精度としてのF値が高く,学習時間が短い手法を提案する.近年,掲示板やSNS等,ユーサが自由に読み書きできるサイトか増加しており,未成年に対して悪影響を及ぼすことが問題である.本研究では有害な書き込みを自動的に分類することに注目している.特に本論文では性的な描写を含む文書を分類対象とする.一般的に, Support Vector Machine (SVM)を用いた文書分類では,単語の出現頻度を素性とする場合がおおいが,精度がそれほど高くない上に,学習のための計算時間が長く,多くの計算メモリも必要である.本稿で提案する手法は,SVMの素性にベイズ分類器のPaul Graham (Graham)方式とGray Robinson (Robinson)方式によって計算した文書の評価値を素性とすることで,高い精度を得ながら,学習時間が短い手法を提案する.実験では,本手法は,既存の単語の出現頻度に基づくSVMや,ベイズ分類器などと比較して,短い学習時間で,精度の高い結果が得られた.
抄録(英) In this paper, we propose the method of text categorization that we can get high F value with short time by using the evaluation value of the Bayes classification as features of a document required of SVM. Many bulletin board systems and social network services have become popular collaboration tools in recent years. In such system, some information, such as adult content, is not appropriate for all users, notably children. Based on the above motivation and background, we have been focusing on filtering harmful text information(especially, adult contents). Generally, in the field of document classification with SVM, people use the word frequencies as features of documents in SVM. However, in there method, F value is not so high and there is also much computation time. In the method we proposed, we can get high F value with short time by using the evaluation value of the Paul Graham system and Gray Robinson system as features of a document required of SVM. In comparative experiments with the existing method, our method result is the best in other method.
キーワード(和) SVM / 自然言語処理
キーワード(英) SVM / Natural Language Processing
資料番号 AI2011-42
発行日

研究会情報
研究会 AI
開催期間 2012/2/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) ベイズ分類器による文書の有害確率を素性に用いたSVMによる有害文書分類手法(「クラウドソーシング」及び一般)
サブタイトル(和)
タイトル(英) A Text Categorization Method by using SVM that Utilizes Evaluation Values based on the Bayes Classification as the Document Features
サブタイトル(和)
キーワード(1)(和/英) SVM / SVM
キーワード(2)(和/英) 自然言語処理 / Natural Language Processing
第 1 著者 氏名(和/英) 藤井 雄太郎 / Yutaro FUJII
第 1 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
第 2 著者 氏名(和/英) 吉村 卓也 / Takuya YOSHIMURA
第 2 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
第 3 著者 氏名(和/英) 伊藤 孝行 / Takayuki ITO
第 3 著者 所属(和/英) 名古屋工業大学
Nagoya Institute of Technology
発表年月日 2012-02-28
資料番号 AI2011-42
巻番号(vol) vol.111
号番号(no) 447
ページ範囲 pp.-
ページ数 6
発行日