講演名 2007/7/17
文字列を特徴量とし反復度を用いたテキスト分類(文書分類・翻訳)
平田 勝大, 岡部 正幸, 梅村 恭司,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 標準的なテキスト分類では、文書の特徴として単語を使用するが、文字列を特徴として使用する研究もたくさんある。文字列を特徴としたテキスト分類では、文書の部分文字列数が膨大であることから、どの文字列を特徴として使用するのが良いかという問題がある。相互情報量に基づく条件付確率によって文字列を抽出すると効果があるという報告より、本研究では、文字列を反復度という統計量を用いることで抽出し、テキスト分類の性能の向上を目指す。
抄録(英) In traditional methods for text classification, words are used as a set of features for a document However there are many string-based approaches In the string-based approaches, the number of all substrings of documents would be extremely large and we don't know which substring is important for text classification. Previous research reports that using conditional probabilities based on mutual information for extracting features is effective We reports extracting features with adaptation and that the method is more useful for text classification
キーワード(和) テキスト分類 / 特微量抽出 / Suffix Tree / Support Vector Machine
キーワード(英) Text Classification / Feature Extraction / Suffix Tree / Support Vector Machine
資料番号 NLC2007-21
発行日

研究会情報
研究会 NLC
開催期間 2007/7/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 文字列を特徴量とし反復度を用いたテキスト分類(文書分類・翻訳)
サブタイトル(和)
タイトル(英) Extracting String Features with Adaptation for Text Classification
サブタイトル(和)
キーワード(1)(和/英) テキスト分類 / Text Classification
キーワード(2)(和/英) 特微量抽出 / Feature Extraction
キーワード(3)(和/英) Suffix Tree / Suffix Tree
キーワード(4)(和/英) Support Vector Machine / Support Vector Machine
第 1 著者 氏名(和/英) 平田 勝大 / Katsuhiro Hirata
第 1 著者 所属(和/英) 豊橋技術科学大学情報工学系
Information & Computer Sciences, Toyohashi University of Technology
第 2 著者 氏名(和/英) 岡部 正幸 / Masayuki Okabe
第 2 著者 所属(和/英) 豊橋技術科学大学情報メディア基盤センター
Information and Media Center, Toyohashi University of Technology
第 3 著者 氏名(和/英) 梅村 恭司 / Kyoji Umemura
第 3 著者 所属(和/英) 豊橋技術科学大学情報工学系
Information & Computer Sciences, Toyohashi University of Technology
発表年月日 2007/7/17
資料番号 NLC2007-21
巻番号(vol) vol.107
号番号(no) 158
ページ範囲 pp.-
ページ数 6
発行日