講演名 1997/7/25
誤り駆動型学習とシソーラスを用いた文書自動分類
山崎 毅文, ダガン イド,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では、誤り駆動型学習アルゴリズムWINNOWを用いたテキスト自動分類手法について述べる。WINNOW は、事例中にノイズを含む場合や分類に無関係な属性が多数存在する場合に対して、効率的に働くことが知られており、上記特徴を持つテキスト分類の問題に対して、有効に働くことが期待できる。本提案手法では、テキストを表す特徴として、単語だけでなくシソーラスによって付与される意味カテゴリーも合わせて利用する。シソーラス利用によって生じる2つの問題点、特徴空間の次元増加による過適用の問題及び多義の問題を解決する手段として、Filtering手法及び関連度に基づく多義性解消手法を提案する。RWCPテキストコーパスを用いた分類実験により、提案手法の妥当性を示す。
抄録(英) This paper extends the mistake-driven learner WINNOW, which has been highly studied in the theoretical machine learning literature, to better utilize thesauri for text categorization. In our method not only words but also semantic categories given by the thesaurus are used as features in a classifier. New filtering and disambiguation methods are used as pre-processing to solve the problems caused by the use of the thesaurus. In the experiment we test RWCP corpus and verify our method.
キーワード(和)
キーワード(英)
資料番号 NLC97-21
発行日

研究会情報
研究会 NLC
開催期間 1997/7/25(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 誤り駆動型学習とシソーラスを用いた文書自動分類
サブタイトル(和)
タイトル(英) Mistake-driven learning with thesaurus for text categorization
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 山崎 毅文 / Takefumi Yamazaki
第 1 著者 所属(和/英) NTTコミュニケーション科学研究所
NTT Comunication Science Laboratories
第 2 著者 氏名(和/英) ダガン イド / Ido Dagan
第 2 著者 所属(和/英) Bar Ilan University
Bar Ilan University
発表年月日 1997/7/25
資料番号 NLC97-21
巻番号(vol) vol.97
号番号(no) 200
ページ範囲 pp.-
ページ数 8
発行日