講演名 2004/3/23
GMMに基づく声質変換への尤度基準学習の適用(聴覚・音声・言語とその障害)
花園 正也, 戸田 智基, 川波 弘道, 猿渡 洋, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ある話者の声を任意の話者の声に変換する手法として混合正規分布(Gaussian Mixture Model: GMM)に基づく声質変換法が挙げられる.この手法では話者間の相関を利用し入力された特微量に対して連続的な写像を行うことで,不連続感の少ない変換音声を得ることが可能である.しかし,その精度は音質や話者性の点から未だ十分なものではない,そこでGMMに基づく声質変換法において尤度基準の非線形時間伸縮(Dynamic Time Warping :DTW)を導入し,反復学習させる手法を提案する.この手法では包括的なEMアルゴリズムが実現され,反復学習により尤度最大化を行うことができる.GMMの学習精度としてE_θ[logL(θ;x,y)]から得られる尤度値を評価した結果,尤度の単調増加が確認され,従来法より尤度値が向上していることが確認された.一方,本手法では尤度最大化のみに着目した学習法であり,DTWにおける極端な対応付けが原因で局所解が導出されることが実験結果から分かった.そこでDTWのパスにおいて傾斜制限を行うことを試みる.これにより対応付けを安定させ,尤度値を上昇させることが可能であると分かった.
抄録(英) GMM (Gaussian Mixture Model)-based voice conversion technique has been proposed as a method which can convert a speaker's voice into another speaker's voice. The conversion is done by continuous acoustic feature mapping using correlation between original speaker's speech and target speaker's speech. This method synthesizes more natural converted speech than conventional codebook mapping method. However, its performance is not enough in speech quality and speaker individuality. In this paper we propose new algorithm which trains GMM iteratively by introducing likelihood-based DTW (Dynamic Time Warping). This method consists of a conprehensive EM Algorithm, thus it is possible to rise up the likelihood. A result of evaluation test to investigate GMM training ability shows better likelihood is obtained in our method. On the other hand, this proposed method uses likelihood-based DTW and the alignment is influenced by GMM. In further anlalysis, it is observed that an unproper alignment is calculated and local solution is obtained in GMM training. As a measure of this problem, we introuduce constrained DP path in DTW. Results of the evaluation experiments clarify that this path can get a stable alignment in DTW, and this proposed method can rise up the likelihood.
キーワード(和) 声質変換 / 話者性 / 混合正規分布 / 尤度基準 / EMアルゴリズム
キーワード(英) Voice conversion / Gaussian mixture model / Likelihood criterion / EM algorithm
資料番号 SP2003-200
発行日

研究会情報
研究会 SP
開催期間 2004/3/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) GMMに基づく声質変換への尤度基準学習の適用(聴覚・音声・言語とその障害)
サブタイトル(和)
タイトル(英) Applying Likelihood Criterion Training to GMM-based Voice Conversion Technique
サブタイトル(和)
キーワード(1)(和/英) 声質変換 / Voice conversion
キーワード(2)(和/英) 話者性 / Gaussian mixture model
キーワード(3)(和/英) 混合正規分布 / Likelihood criterion
キーワード(4)(和/英) 尤度基準 / EM algorithm
キーワード(5)(和/英) EMアルゴリズム
第 1 著者 氏名(和/英) 花園 正也 / Masaya HANAZONO
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 戸田 智基 / Tomoki TODA
第 2 著者 所属(和/英) 名古屋工業大学 : カーネギーメロン大学
Nagoya Institute of Technology : Carnegie Mellon University
第 3 著者 氏名(和/英) 川波 弘道 / Hiromichi KAWANAMI
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 4 著者 氏名(和/英) 猿渡 洋 / Hiroshi SARUWATARI
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 5 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 5 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2004/3/23
資料番号 SP2003-200
巻番号(vol) vol.103
号番号(no) 750
ページ範囲 pp.-
ページ数 6
発行日