講演名 | 1998/12/10 文クラスタ混合分布N-gramの検討 清水 徹, 大野 晃生, 黒岩 眞吾, 樋口 宜男, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと、ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された. |
抄録(英) | This paper prposes a new method for developing statistical N-gram language models which integrate sentence-level mixture N-grams and selective use of similar task data. In this method, component N-gram parameters are estimated using both target topic data and similar task data, then the sentence-level mixture N-gram model is adapted by using only target topic data. This approach has the advantage that it can use more data for training and remove useless clusters, which are far from target topic data. The experiment results show that this method achieves the cross-entropy reduction compared with the standard trigram. |
キーワード(和) | クラスタリング / 統計的言語モデル / 混合分布N-gram / 会話音声 |
キーワード(英) | Clustering / Statistical language model / Mixture N-gram / Conversational speech |
資料番号 | NLC98-37,SP98-101 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 1998/12/10(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 文クラスタ混合分布N-gramの検討 |
サブタイトル(和) | |
タイトル(英) | A Study on Sentence-Level Mixture N-gram based on Sentence Clustering. |
サブタイトル(和) | |
キーワード(1)(和/英) | クラスタリング / Clustering |
キーワード(2)(和/英) | 統計的言語モデル / Statistical language model |
キーワード(3)(和/英) | 混合分布N-gram / Mixture N-gram |
キーワード(4)(和/英) | 会話音声 / Conversational speech |
第 1 著者 氏名(和/英) | 清水 徹 / Tohru Shimizu |
第 1 著者 所属(和/英) | (株)KDD研究所 KDD R&D Laboratories Inc. |
第 2 著者 氏名(和/英) | 大野 晃生 / Teruo Ohno |
第 2 著者 所属(和/英) | (株)KDD研究所 KDD R&D Laboratories Inc. |
第 3 著者 氏名(和/英) | 黒岩 眞吾 / Shingo Kuroiwa |
第 3 著者 所属(和/英) | (株)KDD研究所 KDD R&D Laboratories Inc. |
第 4 著者 氏名(和/英) | 樋口 宜男 / Norio Higuchi |
第 4 著者 所属(和/英) | (株)KDD研究所 KDD R&D Laboratories Inc. |
発表年月日 | 1998/12/10 |
資料番号 | NLC98-37,SP98-101 |
巻番号(vol) | vol.98 |
号番号(no) | 462 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |