講演名 1999/12/20
音声認識のための高速最ゆう推定を用いた声道長正規化
江森 正, 篠田 浩一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年、隠れマルコフモデル(HMM)を用いた大語業音声認識システムにおいて、声道長パラメータを用いた話者正規化の手法が提案されている。本稿では、声道長による特徴量の変化を、ケプストラム空間における声道長パラメータを用いた線形写像で表現し、そのパラメータを発声から最ゆう推定する手法を提案する。従来の、複数の声道長パラメータを予め用意する手法に比べ、計算量が少なく、より話者に最適なパラメータが推定可能、などの利点がある。日本語5000単語認識を用いた評価実験において、本方式単独で、7.1%誤りが減少し、また、ケプストラム平均正規化(CMN)と組み合わせた場合に、14.6%誤りが減少した。
抄録(英) In recent works, vocal tract length normalization methods which achieve a remapping of the frequency axis using warping functions have been proposed for a large vocabulary speech recognition system. In this work, we introduce an estimation method of the parameter characterizing individual speakers, using the remapping of the frequency axis in cepstrum domain derived from all-pass transforms. In Japanese 5000-word task speech recognition experiments, we report reductions in word error rate of 7.1% absolute. When the normalization method is combined with CMN, word error rate reduction is 14.6%.
キーワード(和)
キーワード(英)
資料番号 NLC99-101
発行日

研究会情報
研究会 NLC
開催期間 1999/12/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 音声認識のための高速最ゆう推定を用いた声道長正規化
サブタイトル(和)
タイトル(英) VocaI Tract Length Normalization using Rapid Maximum-Likelihood Estimation for Speech Recognition
サブタイトル(和)
キーワード(1)(和/英)
第 1 著者 氏名(和/英) 江森 正 / Tadashi EMORI
第 1 著者 所属(和/英)
第 2 著者 氏名(和/英) 篠田 浩一 / Koichi SHINODA
第 2 著者 所属(和/英)
発表年月日 1999/12/20
資料番号 NLC99-101
巻番号(vol) vol.99
号番号(no) 523
ページ範囲 pp.-
ページ数 6
発行日