講演名 2002/12/13
かな・漢字文字列を単位とした言語モデルの検討
金野 弘明, 加藤 正治, 小坂 哲夫, 好田 正紀, 伊藤 彰則,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルを作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列と選択する方法、の2つを試みた。毎日新聞テキストコーパスとJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。
抄録(英) This paper describes a character-based n-gram language model. The proposed model is based on Kanji and Kana character instead of word or morpheme determined by morphemic analysis. To exploit stronger constraint, character strings are used in addition to single characters as basic units of the model. We examined two methods to choose character strings. One method is based on frequency in the training corpus, and the other is based on mutual information as well as the frequency. We carried out experiments to compare perplexities and character error rates (CER) between the proposed model and conventional (word or character based) n-gram model. The results showed that the mutual information based method gave the better performance. Although the proposed model was not superior to the word-based model, it was better than the character-based one. The vocabulary size of the proposed model was about 50% smaller than that of word-based model.
キーワード(和) 形態素解析 / 言語モデル / 文字列 / 出現頻度 / 相互情報量
キーワード(英) morphemic analysis / language model / character string / frequency / mutual information
資料番号 NLC2002-71
発行日

研究会情報
研究会 NLC
開催期間 2002/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) かな・漢字文字列を単位とした言語モデルの検討
サブタイトル(和)
タイトル(英) A study on language model based on kana and kanji string
サブタイトル(和)
キーワード(1)(和/英) 形態素解析 / morphemic analysis
キーワード(2)(和/英) 言語モデル / language model
キーワード(3)(和/英) 文字列 / character string
キーワード(4)(和/英) 出現頻度 / frequency
キーワード(5)(和/英) 相互情報量 / mutual information
第 1 著者 氏名(和/英) 金野 弘明 / Hiroaki KINNO
第 1 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 2 著者 氏名(和/英) 加藤 正治 / Masaharu KATOH
第 2 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 3 著者 氏名(和/英) 小坂 哲夫 / Tetsuo KOSAKA
第 3 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 4 著者 氏名(和/英) 好田 正紀 / Masaki KOHDA
第 4 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 5 著者 氏名(和/英) 伊藤 彰則 / Akinori ITO
第 5 著者 所属(和/英) 東北大学大学院工学研究科
Graduate School of Engineering, Tohoku University
発表年月日 2002/12/13
資料番号 NLC2002-71
巻番号(vol) vol.102
号番号(no) 528
ページ範囲 pp.-
ページ数 6
発行日