講演名 2000/12/15
単語およびクラスn-gram作成のためのツールキット
伊藤 彰則, 好田 正紀,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 単語n-gramとクラスn-gramが作成可能なツールキットを作成した.このツールキットは, CMU-Cambridge SLM Toolkitとコマンドレベルで互換性があり, ARPA言語モデルを作成することができる.また, n-gram出現回数の混合による言語モデルや, 線形結合による言語モデルの組み合わせをサポートしている.言語モデルの組み合わせはAPIレベルでサポートされているので, 本ツールキットのライブラリを利用すれば, 組み合わせ言語モデルを使ったシステムを手軽に作ることができる.本ツールを使った実験として, 毎日新聞6年分を用いた言語モデルの評価実験を行った.単語モデルと品詞モデルのさまざまな組み合わせを比較した結果, 単語trigramに品詞trigramを組み合わせることで, パープレキシティが若干改善できることがわかった.
抄録(英) This paper describes a statistical language model toolkit for word and class-based n-gram. This toolkit has command-level compatibility with CMU-Cambridge SLM Toolkit, and supports ARPA-style language model. Furthermore, the toolkit supports class n-gram and n-gram count mixture as well as combined language model using linear interpolation. As the language model combination is supported within the API level, the SLM library in this toolkit enables any tool to exploit the LM combination. To demonstrate the potential of the toolkit, several language models are created from six-year Mainichi Shimbun database. We evaluated verious combination of word n-gram and POS n-gram, and we found that the combination of word trigram and POS trigram reasonably improves the perplexity.
キーワード(和) 単語n-gram / 品詞n-gram / 言語モデルツールキット / パープレキシティ
キーワード(英) word n-gram / class n-gram / statistical language model toolkit / perplexity
資料番号 NLC2000-58,SP2000-106
発行日

研究会情報
研究会 NLC
開催期間 2000/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 単語およびクラスn-gram作成のためのツールキット
サブタイトル(和)
タイトル(英) Statistical Language Model Toolkit for Word and Class N-gram
サブタイトル(和)
キーワード(1)(和/英) 単語n-gram / word n-gram
キーワード(2)(和/英) 品詞n-gram / class n-gram
キーワード(3)(和/英) 言語モデルツールキット / statistical language model toolkit
キーワード(4)(和/英) パープレキシティ / perplexity
第 1 著者 氏名(和/英) 伊藤 彰則 / Akinori Ito
第 1 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 2 著者 氏名(和/英) 好田 正紀 / Masaki Kohda
第 2 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
発表年月日 2000/12/15
資料番号 NLC2000-58,SP2000-106
巻番号(vol) vol.100
号番号(no) 521
ページ範囲 pp.-
ページ数 6
発行日