講演名 | 2002/7/9 中国語形態素解析に対するSVMとコスト最小法の比較実験 吉田 辰巳, 大竹 清敬, 山本 和英, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 現在入手可能なツールと言語資源を用いて中国語形態素解析を行った場合にどの程度の精度が得られるかを報告する.解析ツールにサポートベクトルマシン(SVM)を用いたYamCha,ならびにコスト最小法に基づく形態素解析器としてMOZを用いた.中国語コーパスとしては,最も一般的なPenn Chinese Treebank(10万語)を使用した.これらを組み合わせて,形態素解析実験を行った.この結果,YamChaによる形態素解析精度は約88%でMOZよりも4%以上高いが,実用的には計算時間に問題があることが分った.また,より大きなタグ付きコーパスとして人民日報タグ付きコーパス(110万語)を用いて解析実験を行ったところ,YamCha,MOZそれぞれの解析精度は92%,89%となった. |
抄録(英) | We will report performances of the Chinese morphological analyzers using analysis tools and language resources, each of which is currently available to the public. We use YamCha, a tool based on Support Vector Machines, and MOZ, which based on minimum connective costs method. We employ the Penn Chinese Treebank (100 thousand words), known as the most common Chinese language resource. Combining these tools and the resource, we measure the performances of Chinese morphological analysis, i.e., word segmentation and part-of-speech tagging. We found that the accuracy using YamCha attains around 88%, which is over 4% higher than that of MOZ, although it is computationally very expensive. We also employ the tagged corpus of Renmin Ribao (1.1 million words) that is bigger than the Penn Chinese Treebank. We found that the accuracies of morphological analysis by YamCha and MOZ attain around 92% and 89%, respectively. |
キーワード(和) | 中国語形態素解析 / SVM / YamCha / MOZ |
キーワード(英) | Chinese morphological analysis / SVM / YamCha / MOZ |
資料番号 | NLC2002-32 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2002/7/9(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 中国語形態素解析に対するSVMとコスト最小法の比較実験 |
サブタイトル(和) | |
タイトル(英) | Comparative Experiments of Chinese Analyzers between Support Vector Machines and Minimum Connective Costs Method |
サブタイトル(和) | |
キーワード(1)(和/英) | 中国語形態素解析 / Chinese morphological analysis |
キーワード(2)(和/英) | SVM / SVM |
キーワード(3)(和/英) | YamCha / YamCha |
キーワード(4)(和/英) | MOZ / MOZ |
第 1 著者 氏名(和/英) | 吉田 辰巳 / Tatsumi YOSHIDA |
第 1 著者 所属(和/英) | 豊橋技術科学大学 知識情報工学系 Dept. of Knowledge-based Information Engineering, Toyohashi University of Technology |
第 2 著者 氏名(和/英) | 大竹 清敬 / Kiyonori OHTAKE |
第 2 著者 所属(和/英) | ATR音声言語コミュニケーション研究所 ATR Spoken Language Translation Research Laboratories |
第 3 著者 氏名(和/英) | 山本 和英 / Kazuhide YAMAMOTO |
第 3 著者 所属(和/英) | ATR音声言語コミュニケーション研究所 ATR Spoken Language Translation Research Laboratories |
発表年月日 | 2002/7/9 |
資料番号 | NLC2002-32 |
巻番号(vol) | vol.102 |
号番号(no) | 200 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |