講演名 2001/7/9
タグなしコーパスによる形態素解析と仮名漢字変換の精度向上
森 信介, 伊東 伸泰,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 確率的言語モデルを基礎とする自然言語処理において、タグが付与された学習コーパスは重要であり、これを増量することが精度向上につながることがわかっている。しかしながら有意な精度向上のためには、学習コーパスを指数関数的以上に増加させる必要があり、このために必要なコーパスにタグを付与するコストは無視できない程度になっている。このような背景のもと、本論文ではタグなしコーパスの利用による形態素解析と仮名漢字変換の精度向上について述べる。実験では、タグなしコーパスの利用により、確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度は有意に向上し、タグなしコーパスは0.87倍の量のタグつきコーパスに匹敵したが、形態素解析の精度向上は微小であった。
抄録(英) A tagged corpus plays an importantrole in natural language processing based on a stochastic language model and increasing the corpus size improves the accuracy. It is, however, necessary for a meaningful improvement to increase a corpus size more than expornentially and an annotation cost needed for it is not negligiable. In this paper, we discuss the usage of an untagged corpus. In the experiments, using an untagged corpus improved the predictive power of a stochastic language model and the accuracy of a kana-kanji converter based on it. But for a tagger the improvement was slight.
キーワード(和) 仮名漢字変換 / 確率的言語モデル / コーパス / 形態素解析 / タグなし
キーワード(英) Kana-kanji converter / Stochastic Language Model / Corpus / Morphological analysis / Untagged
資料番号 NLC2001-15
発行日

研究会情報
研究会 NLC
開催期間 2001/7/9(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) タグなしコーパスによる形態素解析と仮名漢字変換の精度向上
サブタイトル(和)
タイトル(英) Improvement of POS tagger and KanaKanji Converter by an Untagged Corpus
サブタイトル(和)
キーワード(1)(和/英) 仮名漢字変換 / Kana-kanji converter
キーワード(2)(和/英) 確率的言語モデル / Stochastic Language Model
キーワード(3)(和/英) コーパス / Corpus
キーワード(4)(和/英) 形態素解析 / Morphological analysis
キーワード(5)(和/英) タグなし / Untagged
第 1 著者 氏名(和/英) 森 信介 / Shinsuke Mori
第 1 著者 所属(和/英) 日本IBM東京基礎研究所
Tokyo Research Laboratory, IBM Japan
第 2 著者 氏名(和/英) 伊東 伸泰 / Nobuyasu Itoh
第 2 著者 所属(和/英) 日本IBM東京基礎研究所
Tokyo Research Laboratory, IBM Japan
発表年月日 2001/7/9
資料番号 NLC2001-15
巻番号(vol) vol.101
号番号(no) 189
ページ範囲 pp.-
ページ数 8
発行日