講演抄録/キーワード |
講演名 |
2018-06-29 11:00
時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討 ○中尾健人・橋本 佳・大浦圭一郎・南角吉彦・徳田恵一(名工大) PRMU2018-31 SP2018-11 |
抄録 |
(和) |
本研究では,音響特徴量とその時間構造の同時モデル化が可能である MDN-HSMM に基づく音声合成における話者適応を提案する.ディープニューラルネットワーク (Deep Neural Network; DNN) に基づく音声合成における話者適応は, 外部の継続長予測器を用いて推定された継続長情報に基づき行われるため,音声の時間構造を考慮した話者適応を行うことが不可能である.この問題点を解決するために,本研究ではニューラルネットワークの出力によって隠れセミマルコフモデル (Hidden Semi-Markov Model; HSMM) のパラメータを決定することで音響特徴量とその時間構造を統一的な枠組みでモデル化可能とする MDN-HSMM と呼ばれるモデルを導入し,話者適応を行う.MDN-HSMM を用いることで,音響特徴量と音声の時間構造を考慮した話者適応が可能となり,話者の特徴を適切に捉えることが可能となる.実験結果から,従来の DNN に基づく音声合成における話者適応と比較し,提案法は合成音声の自然性と話者性の改善を示した. |
(英) |
This paper proposes a speaker adaptation technique for speech synthesis based on deep neural networks (DNNs) using a structure of hidden semi-Markov models (HSMMs). Speaker adaptation techniques for DNN-based speech synthesis usually use the fixed time-alignments which are estimated by some external aligners. Therefore, acoustic features and temporal structures
of speech are separately adapted in speaker adaptation. To perform speaker adaptation considering temporal structures, a special type of mixture density network (MDN) called MDN-HSMM, which outputs parameters of HSMMs, is applied. Experimental results show that the proposed method improves the naturalness and speaker similarity of the synthesized speech from the speaker adaptation based on DNNs. |
キーワード |
(和) |
統計的パラメトリック音声合成 / 話者適応 / ニューラルネットワーク / 話者コード / / / / |
(英) |
statistical parametric speech synthesis / speakre adaptation / neural network / speaker code / / / / |
文献情報 |
信学技報, vol. 118, no. 112, SP2018-11, pp. 53-58, 2018年6月. |
資料番号 |
SP2018-11 |
発行日 |
2018-06-21 (PRMU, SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2018-31 SP2018-11 |
|