講演名 | 2000/12/15 単語およびクラスn-gram作成のためのツールキット 伊藤 彰則, 好田 正紀, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 単語n-gramとクラスn-gramが作成可能なツールキットを作成した.このツールキットは, CMU-Cambridge SLM Toolkitとコマンドレベルで互換性があり, ARPA言語モデルを作成することができる.また, n-gram出現回数の混合による言語モデルや, 線形結合による言語モデルの組み合わせをサポートしている.言語モデルの組み合わせはAPIレベルでサポートされているので, 本ツールキットのライブラリを利用すれば, 組み合わせ言語モデルを使ったシステムを手軽に作ることができる.本ツールを使った実験として, 毎日新聞6年分を用いた言語モデルの評価実験を行った.単語モデルと品詞モデルのさまざまな組み合わせを比較した結果, 単語trigramに品詞trigramを組み合わせることで, パープレキシティが若干改善できることがわかった. |
抄録(英) | This paper describes a statistical language model toolkit for word and class-based n-gram. This toolkit has command-level compatibility with CMU-Cambridge SLM Toolkit, and supports ARPA-style language model. Furthermore, the toolkit supports class n-gram and n-gram count mixture as well as combined language model using linear interpolation. As the language model combination is supported within the API level, the SLM library in this toolkit enables any tool to exploit the LM combination. To demonstrate the potential of the toolkit, several language models are created from six-year Mainichi Shimbun database. We evaluated verious combination of word n-gram and POS n-gram, and we found that the combination of word trigram and POS trigram reasonably improves the perplexity. |
キーワード(和) | 単語n-gram / 品詞n-gram / 言語モデルツールキット / パープレキシティ |
キーワード(英) | word n-gram / class n-gram / statistical language model toolkit / perplexity |
資料番号 | NLC2000-58,SP2000-106 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2000/12/15(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 単語およびクラスn-gram作成のためのツールキット |
サブタイトル(和) | |
タイトル(英) | Statistical Language Model Toolkit for Word and Class N-gram |
サブタイトル(和) | |
キーワード(1)(和/英) | 単語n-gram / word n-gram |
キーワード(2)(和/英) | 品詞n-gram / class n-gram |
キーワード(3)(和/英) | 言語モデルツールキット / statistical language model toolkit |
キーワード(4)(和/英) | パープレキシティ / perplexity |
第 1 著者 氏名(和/英) | 伊藤 彰則 / Akinori Ito |
第 1 著者 所属(和/英) | 山形大学工学部 Faculty of Engineering, Yamagata University |
第 2 著者 氏名(和/英) | 好田 正紀 / Masaki Kohda |
第 2 著者 所属(和/英) | 山形大学工学部 Faculty of Engineering, Yamagata University |
発表年月日 | 2000/12/15 |
資料番号 | NLC2000-58,SP2000-106 |
巻番号(vol) | vol.100 |
号番号(no) | 521 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |