最尤推定に基づく線形変換を用いた声道長正規化

六井 淳; 中井 満; 下平 博; 嵯峨山 茂樹

講演名	2001/12/13 最尤推定に基づく線形変換を用いた声道長正規化六井淳, 中井満, 下平博, 嵯峨山茂樹,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	声道長正規化(Vocal Tract Length Normalization:VTLN)は音声認識において最も盛んに研究されている話者適応技術の1つである。本報告では最尤推定法を用いて周波数軸の線形伸縮係数を推定し、これによって音響モデルのパラメータを適応する話者適応法を提案する。現在、HMM(隠れマルコフモデル)のパラメータ推定に用いられるEMアルゴリズムに基づくケプストラム領域での声道長正規化手法が提案されている。これら声道長正規化手法の多くは周波数領域において端点固定の非線形伸縮となり、HMMパラメータ推定はケプストラム領域で行われていた。これに対し、提案手法は唯一つの伸縮係数を持つ線形な周波数伸縮を仮定しており、テイラー展開の一次項近似によりメルケプストラム領域でモデル化される手法である。提案手法は不特定話者孤立単語認識実験を通して認識性能の向上が確認された。
抄録(英)	Vocal tract length normalization (VTLN) is one of the popular speaker adaptation techniques for speech recognition. The present study proposes a new VTLN algorithm in which expectation-maximization (EM) based parameter adaptation of HMM to vocal tract length is achieved in the mel-cepstral domain by utilizing a linear transformation model. Compared to other existing approaches based on bi-linear transformation for VTLN where a specific non-linear frequency warping function is employed in the spectrum domain and parameter adaptation of HMM is carried out in the cepstral domain, the proposed approach assumes a linear frequency warping with a single scaling factor and equivalent operation is modeled in the mel-cepstral domain by using a first order Taylor series approximation. The proposed scheme demonstrates significant improvement of recognition performance in a speaker independent word recognition task.
キーワード(和)	声道長正規化 / 線形変換 / 最尤推定 / 話者適応 / 話者正規化
キーワード(英)	Vocal Tract Length Normalization / Linear Transformation / Maximum Likelihood Estimation / Speaker Adaptation / Speaker Normalization
資料番号	NLC2001-52,SP2001-87
発行日

研究会情報
研究会	NLC
開催期間	2001/12/13(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Natural Language Understanding and Models of Communication (NLC)
本文の言語	JPN
タイトル（和）	最尤推定に基づく線形変換を用いた声道長正規化
サブタイトル（和）
タイトル（英）	Vocal Tract Length Normalization Using Linear Transformation based on Maximum Likelihood Estimation
サブタイトル（和）
キーワード(1)（和/英）	声道長正規化 / Vocal Tract Length Normalization
キーワード(2)（和/英）	線形変換 / Linear Transformation
キーワード(3)（和/英）	最尤推定 / Maximum Likelihood Estimation
キーワード(4)（和/英）	話者適応 / Speaker Adaptation
キーワード(5)（和/英）	話者正規化 / Speaker Normalization
第 1 著者氏名（和/英）	六井淳 / Jun ROKUI
第 1 著者所属（和/英）	北陸先端科学技術大学院大学情報科学研究科 Japan Advanced Institute of Science and Technology, Hokuriku.Dept of Information Science.
第 2 著者氏名（和/英）	中井満 / MITSURU Nakai
第 2 著者所属（和/英）	北陸先端科学技術大学院大学情報科学研究科 Japan Advanced Institute of Science and Technology, Hokuriku.Dept of Information Science.
第 3 著者氏名（和/英）	下平博 / Hiroshi SHIMODAIRA
第 3 著者所属（和/英）	北陸先端科学技術大学院大学情報科学研究科 Japan Advanced Institute of Science and Technology, Hokuriku.Dept of Information Science.
第 4 著者氏名（和/英）	嵯峨山茂樹 / Shigeki SAGAYAMA
第 4 著者所属（和/英）	東京大学大学院情報理工学研究科システム情報学専攻 The University of Tokyo.Graduate School of Information Science and Technology.
発表年月日	2001/12/13
資料番号	NLC2001-52,SP2001-87
巻番号（vol）	vol.101
号番号（no）	520
ページ範囲	pp.-
ページ数	6
発行日