講演名 | 1998/12/10 接続の方向性を考慮した多重クラスN-gram言語モデル 山本 博史, 匂坂 芳典, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | クラス2-gramにおける効率的なクラス分類を実際のコーパスから統計的に行うための手法を提案する。本手法では直前および、直後の単語への接続性を別の属性としてとらえ、各単語に対してその属性ごとに複数のクラスを割り当てる。これらのクラスは前後に接続している単語の分布に基づいて各々独立に作成されることによって、効率的でかつ信頼性の高いクラス分類となっている。さらにこの多重クラス2-gramを結合単語との多重複合N-gramに拡張することにより、千分の一以下の論理パラメーターサイズでパープレキシティ、単語認識率とも単語N-gramを上回る性能を示した。 |
抄録(英) | A new word-clustering technique is proposed to efficiently build statistically salient class 2-grams from language corpora. By splitting word neighboring characteristics into word-preceding and following directions, multiple(two-dimensional)word classes are assigned to each word. In each side, word classes are merged into larger clusters independently according to preceding or following word distributions. This word-clustering can provide more efficient and statistically reliable word clusters. Further, we extend it to Multi-Class Composite N-gram that unit is Multi-Class 2-gram and joined word. Multi-Class Composite N-gram showed better performance both in perplexity and recognition rates with one thousandth smaller logical parameter size than conventional word 2-grams. |
キーワード(和) | クラスN-gram / 可変長N-gram / 自動クラス分類 / 連鎖語 |
キーワード(英) | Class N-gram / Variable Order N-gram / Automatic Clustering / Joined Word |
資料番号 | NLC98-38,SP98-102 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 1998/12/10(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 接続の方向性を考慮した多重クラスN-gram言語モデル |
サブタイトル(和) | |
タイトル(英) | MULTI CLASS COMPOSITE N-GRAM LANGUAGE MODEL BASED ON CONNECTION DIRECTION |
サブタイトル(和) | |
キーワード(1)(和/英) | クラスN-gram / Class N-gram |
キーワード(2)(和/英) | 可変長N-gram / Variable Order N-gram |
キーワード(3)(和/英) | 自動クラス分類 / Automatic Clustering |
キーワード(4)(和/英) | 連鎖語 / Joined Word |
第 1 著者 氏名(和/英) | 山本 博史 / Hirofumi Yamamoto |
第 1 著者 所属(和/英) | (株)ATR音声翻訳通信研究所 ATR Interpreting Telecommunications Res.Labs. |
第 2 著者 氏名(和/英) | 匂坂 芳典 / Yoshinori Sagisaka |
第 2 著者 所属(和/英) | (株)ATR音声翻訳通信研究所 ATR Interpreting Telecommunications Res.Labs. |
発表年月日 | 1998/12/10 |
資料番号 | NLC98-38,SP98-102 |
巻番号(vol) | vol.98 |
号番号(no) | 462 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |