講演名 2009-01-30
確率的線形回帰混合モデルを用いた音声変換
喬 宇, 齋藤 大輔, 峯松 信明,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では二つの特徴空間の写像を学習する確率的線形回帰混合モデル(MPLR)を提案する。MPLRは複数の確率的線形回帰モデルを重み付きで混合することで構成されており、そのパラメータは行列計算によって推定可能である。MPLRは混合モデルであるため、非線形写像を取り扱う事ができる。またMPLRは一般化された定式化であるため、確率密度として特定のモデルを要求しない。よく知られているGMMを用いた音声変換法,はMPLRの特別な場合と解釈でき、MPLRによる一般化によって、GMMに基づく音声変換法を改良することが可能となる。[1]に対しては、MPLRの定式化を用いることで、複雑な一次方程式の解探索を避け、より高速なパラメータ推定が可能になる。更にMPLRは[2]に存在する暗黙の問題を解決する事ができる。我々は音声変換タスクで提案手法と従来のGMM法について評価実験を行った。様々なパラメータ設定において実験を行った結果、MPLR法は従来法に対してより良い性能を示した。
抄録(英) This paper introduces a model of Mixture of Probabilistic Linear Regressions (MPLR) to learn a mapping function between two feature spaces. The MPLR consists of weighted combination of several probabilistic linear regressions, whose parameters are estimated by using matrix calculation. The mixture nature of MPLR allows it to model nonlinear transformation. T he formulation of MPLR is general and independent of the types of the density models used. Two well-known GMM-based mapping methods for voice conversion [1],[2] can be regarded as the special cases of MPLR. This unified view not only provides insights to the GMM-based mapping techniques, but also indicates methods to improve them. Compared to [1], our formulation of MPLR avoids solving complex linear equations and yields a faster estimation of the transform parameters. As for [2], the MPLR estimation provides a modified mapping function which overcomes an implicit problem in [2]'s mapping function. We carried out experiments to compare the MPLR-based methods with the traditional GMM-based methods [1],[2] on a voice conversion task. The experimental results show that the MPLR-based methods always have better performance in various parameter setups.
キーワード(和) 空間写像 / 非線形写像 / 混合モデル / 線形回帰 / 音声変換
キーワード(英) Space mapping / non-linear transform / mixture model / linear regression / voice conversion
資料番号 SP2008-139
発行日

研究会情報
研究会 SP
開催期間 2009/1/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 確率的線形回帰混合モデルを用いた音声変換
サブタイトル(和)
タイトル(英) Mixture of Probabilistic Linear Regressions for Voice Conversion
サブタイトル(和)
キーワード(1)(和/英) 空間写像 / Space mapping
キーワード(2)(和/英) 非線形写像 / non-linear transform
キーワード(3)(和/英) 混合モデル / mixture model
キーワード(4)(和/英) 線形回帰 / linear regression
キーワード(5)(和/英) 音声変換 / voice conversion
第 1 著者 氏名(和/英) 喬 宇 / Yu QIAO
第 1 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
第 2 著者 氏名(和/英) 齋藤 大輔 / Daisuke SAITO
第 2 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
第 3 著者 氏名(和/英) 峯松 信明 / Nobuaki MINEMATSU
第 3 著者 所属(和/英) 東京大学大学院工学系研究科
Grad. School of Engineering, Univ. of Tokyo
発表年月日 2009-01-30
資料番号 SP2008-139
巻番号(vol) vol.108
号番号(no) 422
ページ範囲 pp.-
ページ数 6
発行日