講演抄録/キーワード |
講演名 |
2018-01-21 16:00
WaveNetに基づく声質変換の検討 ○丹羽純平・吉村建慶・橋本 佳・大浦圭一郎・南角吉彦・徳田恵一(名工大) SP2017-84 |
抄録 |
(和) |
本研究では,元話者の音響特徴量から目標話者の音声波形を直接生成する,WaveNet に基づく声質変換手法を提案する.統計モデルに基づく声質変換では,元話者と目標話者の音声から抽出されるスペクトルパラメータなどの音響特徴量間の関係をガウス混合モデルやニューラルネットワークのような統計モデルを用いてモデル化を行う.音響特徴量間の関係をモデル化することは効果的であるが,ボコーダのパラメータが中間表現として使用されるため,目標話者の音声波形を予測するのに最適ではないと考えられる.提案法では,この問題を解決するために,元話者の音声波形から抽出された音響特徴量と目標話者の音声波形の関係を WaveNet によりモデル化する.このため,提案法はボコーダを用いることなく,元話者の音響特徴量から変換後の音声波形を直接生成することが可能である.主観評価実験の結果,提案法は従来法から自然性,話者類似性を改善し,有効性を示した. |
(英) |
This paper proposes a voice conversion technique based on WaveNet to directly generate target audio waveforms from acoustic features of a source speaker. In voice conversion based on statistical models, the relation between acoustic features, e.g., spectral parameters, extracted from source and target audio waveforms is modeled by statistical models, such as Gaussian mixture models and neural networks. Although modeling the relation between acoustic features is reasonable and efficient, the model is not optimized for predicting target audio waveforms because the vocoder parameters are used as the intermediate representations of audio waveforms. To overcome this problem, the relation between target audio waveforms and acoustic features extracted from source audio waveforms is modeled by using WaveNet, which is a generative model for audio waveforms, in the proposed method. Therefore, the proposed model can directly generate converted audio waveforms without vocoders. Experimental results indicate that the proposed method improves the naturalness and the speaker similarity of the converted speech from a conventional DNN-based method, and these results clearly show the effectiveness of the proposed method. |
キーワード |
(和) |
声質変換 / WaveNet / DNN / 統計モデル / / / / |
(英) |
voice conversion / WaveNet / DNN / statistical model / / / / |
文献情報 |
信学技報, vol. 117, no. 393, SP2017-84, pp. 99-104, 2018年1月. |
資料番号 |
SP2017-84 |
発行日 |
2018-01-13 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2017-84 |