講演名 | 2004/3/10 半構造化テキストの分類のためのブースティングアルゴリズム(一般(e-Learningと構造学習))(「社会システムにおける知能」及び一般) 工藤 拓, 松本 裕治, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それに伴い,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,及び本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する. |
抄録(英) | The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features. |
キーワード(和) | テキスト分類 / 半構造化テキスト / Decision Stumps / Boosting |
キーワード(英) | Text Classification / Semi-Structured Text / Decision Stumps / Boosting |
資料番号 | AI2003-104 |
発行日 |
研究会情報 | |
研究会 | AI |
---|---|
開催期間 | 2004/3/10(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Artificial Intelligence and Knowledge-Based Processing (AI) |
---|---|
本文の言語 | JPN |
タイトル(和) | 半構造化テキストの分類のためのブースティングアルゴリズム(一般(e-Learningと構造学習))(「社会システムにおける知能」及び一般) |
サブタイトル(和) | |
タイトル(英) | A Boosting Algorithm for Classification of Semi-Structured Text |
サブタイトル(和) | |
キーワード(1)(和/英) | テキスト分類 / Text Classification |
キーワード(2)(和/英) | 半構造化テキスト / Semi-Structured Text |
キーワード(3)(和/英) | Decision Stumps / Decision Stumps |
キーワード(4)(和/英) | Boosting / Boosting |
第 1 著者 氏名(和/英) | 工藤 拓 / Taku KUDO |
第 1 著者 所属(和/英) | 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology |
第 2 著者 氏名(和/英) | 松本 裕治 / Yuji MATSUMOTO |
第 2 著者 所属(和/英) | 奈良先端科学技術大学院大学 情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology |
発表年月日 | 2004/3/10 |
資料番号 | AI2003-104 |
巻番号(vol) | vol.103 |
号番号(no) | 726 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |