講演名 | 2005/6/16 機械翻訳データを用いた音声認識のための言語モデル適応(多言語, CSJ, 認識・理解・対話・一般) ジェンソン アーナー, ウィッタッカー エドワード, 岩野 公司, 古井 貞煕, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 十分にテキストコーパスの大きさを確保することは, 言語モデルの構築にあたり重要である.特に, 小規模のテキストコーパスしか利用できない言語にとっては, テキストコーパスの欠如は大きな問題となる.本論文では, このような言語に対して, 少量のテキストと, 他言語から機械翻訳によって得られた規模の大きなテキストコーパスを併せて利用し, 言語モデルを構築する手法について述べる.まず, フランス語の言語モデルの構築に, 英語テキストを翻訳したものを利用する場合についての実験を行った.機械翻訳により文単位で翻訳したものと, 英仏辞書を用いて単語単位で翻訳したものを利用した場合について言語モデルの構築を行い, パープレキシティによる評価を行った.次に, アイスランド語の言語モデルの構築に, 単語単位で英語テキストを翻訳したものを用いる場合について検討を行った.構築された言語モデルをパープレキシティと, 音声認識実験による単語誤り率によって評価した.後者の実験の結果, 機械翻訳されたテキストコーパスを用いたことにより, 単語誤り率が41.4%から37.6%に改善することが確認された. |
抄録(英) | Text corpus size is an important issue when building a language model (LM). This is a particularly important issue for languages where little data is available. This paper introduces a LM adaptation technique to improve a LM built using a small amount of task dependent text with the help of a machine-translated text corpus. Perplexity experiments were performed using data, machine translated (MT) from English to French on a sentence-by-sentence basis and using dictionary lookup on a word-by-word basis. Then perplexity and word error rate experiments using MT data from English to Icelandic were done on a word-by-word basis. For the latter, the baseline word error rate was 41.4%. LM interpolation reduced word error rate significantly to 37.6%. |
キーワード(和) | 言語モデル適応 / 音声認識 / 機械翻訳 / スパースなテキストコーパス / リソースが少ない言語 |
キーワード(英) | Language Model Adaptation / Automatic Speech Recognition / Machine Translation / Sparse Text Corpus / Resource Deficient Languages |
資料番号 | SP2005-23 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2005/6/16(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | ENG |
タイトル(和) | 機械翻訳データを用いた音声認識のための言語モデル適応(多言語, CSJ, 認識・理解・対話・一般) |
サブタイトル(和) | |
タイトル(英) | Language Model Adaptation for ASR Using Machine-Translated Data |
サブタイトル(和) | |
キーワード(1)(和/英) | 言語モデル適応 / Language Model Adaptation |
キーワード(2)(和/英) | 音声認識 / Automatic Speech Recognition |
キーワード(3)(和/英) | 機械翻訳 / Machine Translation |
キーワード(4)(和/英) | スパースなテキストコーパス / Sparse Text Corpus |
キーワード(5)(和/英) | リソースが少ない言語 / Resource Deficient Languages |
第 1 著者 氏名(和/英) | ジェンソン アーナー / JENSSON Arnar THOR |
第 1 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Tokyo Institute of Technology |
第 2 著者 氏名(和/英) | ウィッタッカー エドワード / Edward W.D. WHITTAKER |
第 2 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Tokyo Institute of Technology |
第 3 著者 氏名(和/英) | 岩野 公司 / Koji IWANO |
第 3 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Tokyo Institute of Technology |
第 4 著者 氏名(和/英) | 古井 貞煕 / Sadaoki FURUI |
第 4 著者 所属(和/英) | 東京工業大学大学院情報理工学研究科計算工学専攻 Department of Computer Science, Tokyo Institute of Technology |
発表年月日 | 2005/6/16 |
資料番号 | SP2005-23 |
巻番号(vol) | vol.105 |
号番号(no) | 132 |
ページ範囲 | pp.- |
ページ数 | 5 |
発行日 |