講演名 1998/12/10
文クラスタ混合分布N-gramの検討
清水 徹, 大野 晃生, 黒岩 眞吾, 樋口 宜男,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では, 十分な学習データ量が確保できない場合のN-gramモデルの構築法として, 文レベルの混合分布N-gramと類似タスクのデータを加えて学習する方法を組み合わせた手法を提案する.本手法は, ターゲットトピックのデータと類似タスクのデータを足しあわせて文をクラスタリングし, 各クラスタのN-gramから混合分布N-gramを構成するステップと、ターゲットトピックのデータだけを用いて混合分布N-gramの混合比を学習するステップからなる.本手法のメリットは, 類似タスクを用いた学習データ量の確保と, N-gramの混合比の学習による不要な学習データの除去にある.実験の結果, 提案法はターゲットトピックのデータだけから学習したtrigramよりもクロスエントロピーが低下することが確認された.
抄録(英) This paper prposes a new method for developing statistical N-gram language models which integrate sentence-level mixture N-grams and selective use of similar task data. In this method, component N-gram parameters are estimated using both target topic data and similar task data, then the sentence-level mixture N-gram model is adapted by using only target topic data. This approach has the advantage that it can use more data for training and remove useless clusters, which are far from target topic data. The experiment results show that this method achieves the cross-entropy reduction compared with the standard trigram.
キーワード(和) クラスタリング / 統計的言語モデル / 混合分布N-gram / 会話音声
キーワード(英) Clustering / Statistical language model / Mixture N-gram / Conversational speech
資料番号 NLC98-37,SP98-101
発行日

研究会情報
研究会 SP
開催期間 1998/12/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 文クラスタ混合分布N-gramの検討
サブタイトル(和)
タイトル(英) A Study on Sentence-Level Mixture N-gram based on Sentence Clustering.
サブタイトル(和)
キーワード(1)(和/英) クラスタリング / Clustering
キーワード(2)(和/英) 統計的言語モデル / Statistical language model
キーワード(3)(和/英) 混合分布N-gram / Mixture N-gram
キーワード(4)(和/英) 会話音声 / Conversational speech
第 1 著者 氏名(和/英) 清水 徹 / Tohru Shimizu
第 1 著者 所属(和/英) (株)KDD研究所
KDD R&D Laboratories Inc.
第 2 著者 氏名(和/英) 大野 晃生 / Teruo Ohno
第 2 著者 所属(和/英) (株)KDD研究所
KDD R&D Laboratories Inc.
第 3 著者 氏名(和/英) 黒岩 眞吾 / Shingo Kuroiwa
第 3 著者 所属(和/英) (株)KDD研究所
KDD R&D Laboratories Inc.
第 4 著者 氏名(和/英) 樋口 宜男 / Norio Higuchi
第 4 著者 所属(和/英) (株)KDD研究所
KDD R&D Laboratories Inc.
発表年月日 1998/12/10
資料番号 NLC98-37,SP98-101
巻番号(vol) vol.98
号番号(no) 462
ページ範囲 pp.-
ページ数 8
発行日