講演抄録/キーワード |
講演名 |
2020-03-03 09:00
CycleVAEを用いたクロスリンガル声質変換 ○中谷 輝・Patrick Lumban Tobing・武田一哉・戸田智基(名大) EA2019-139 SIP2019-141 SP2019-88 |
抄録 |
(和) |
本報告では,循環型変分自己符号化器(Cyclic Variational Auto-encoder: CycleVAE)を用いたクロスリンガル声質変換手法を提案する. クロスリンガル声質変換は,異なる言語を話す元話者と目標話者間で声質変換を行うタスクである.パラレル学習を用いた声質変換法を用いる際には,例えば,目標話者が自身の母国語の発音体系を用いて,無理やり元話者の母国語を発声するなどして得られる訛りのある音声を利用することで,同一発話文対からなる学習データセットを用意する必要がある.一方で,ノンパラレル学習を用いた声質変換法を用いる際には,元話者の母国語音声と目標話者の母国語音声といった異なる言語で構成される音声データセットの利用が可能となる.しかし,その場合時間フレーム対応付けの問題のみでなく,元話者と目標話者の言語間のミスマッチの問題にも対処する必要がある.これらの問題に対処すべく,本報告ではノンパラレル学習を用いた声質変換法として,変分自己符号化器(Variational Auto-encoder: VAE)を改善したCycleVAEを用いた声質変換法を,クロスリンガル声質変換に適用する.英語母国語話者から日本語母国語話者へのクロスリンガル声質変換における実験的評価結果から,提案手法であるCycleVAEを用いた手法は,訛り音声を使用したパラレル学習を用いた手法よりも自然性の高い変換が可能であることを示す. |
(英) |
In this report, we present a novel cross-lingual voice conversion (VC) method based on cyclic variational auto-encoder (CycleVAE). Cross-lingual VC is a technique to perform VC between source and target speakers who speak different languages. To use a VC method based on parallel learning, it is necessary to prepare training data consisting of accented speeches forcibly uttered by the source or the target speaker based on their mother tongue’s pronunciation systems. On the other hand, to use a VC method based on non-parallel learning, both the source and the target speakers' natural speech data in different languages are available. In that case, however, it is required to handle not only a time-alignment issue but also a language mismatch issue between the source and target speakers. To address these issues, we apply CycleVAE to cross-lingual VC as a more sophisticated non-parallel VC method than a traditional variational auto-encoder (VAE)-based method. From the experimental results of the cross-lingual VC from a native English speaker to a native Japanese speaker, it has been verified that the proposed method based on CycleVAE achieves higher naturalness than a parallel VC method using accented speech data. |
キーワード |
(和) |
声質変換 / クロスリンガル / ノンパラレル / 循環型変分自己符号化器 / / / / |
(英) |
voice conversion / cross-lingual / non-parallel / cyclic variational auto-encoder / / / / |
文献情報 |
信学技報, vol. 119, no. 441, SP2019-88, pp. 219-224, 2020年3月. |
資料番号 |
SP2019-88 |
発行日 |
2020-02-24 (EA, SIP, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2019-139 SIP2019-141 SP2019-88 |
|