講演名 2004/3/10
半構造化テキストの分類のためのブースティングアルゴリズム(一般(e-Learningと構造学習))(「社会システムにおける知能」及び一般)
工藤 拓, 松本 裕治,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それに伴い,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,及び本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する.
抄録(英) The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features.
キーワード(和) テキスト分類 / 半構造化テキスト / Decision Stumps / Boosting
キーワード(英) Text Classification / Semi-Structured Text / Decision Stumps / Boosting
資料番号 AI2003-104
発行日

研究会情報
研究会 AI
開催期間 2004/3/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Artificial Intelligence and Knowledge-Based Processing (AI)
本文の言語 JPN
タイトル(和) 半構造化テキストの分類のためのブースティングアルゴリズム(一般(e-Learningと構造学習))(「社会システムにおける知能」及び一般)
サブタイトル(和)
タイトル(英) A Boosting Algorithm for Classification of Semi-Structured Text
サブタイトル(和)
キーワード(1)(和/英) テキスト分類 / Text Classification
キーワード(2)(和/英) 半構造化テキスト / Semi-Structured Text
キーワード(3)(和/英) Decision Stumps / Decision Stumps
キーワード(4)(和/英) Boosting / Boosting
第 1 著者 氏名(和/英) 工藤 拓 / Taku KUDO
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学 情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 松本 裕治 / Yuji MATSUMOTO
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学 情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2004/3/10
資料番号 AI2003-104
巻番号(vol) vol.103
号番号(no) 726
ページ範囲 pp.-
ページ数 6
発行日