講演名 2020-01-29
話者コードを用いた多話者音声合成における深層ガウス過程の利用
三井 健太郎(東大), 郡山 知樹(東大), 猿渡 洋(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 単一のモデルで多数の話者をモデリングする多話者音声合成の手法として,話者コードと呼ばれるベクトルを用いた条件付けが広く用いられている.従来,話者コードを用いた多話者モデリングの継続長・音響モデルにはDeep Neural Network (DNN) が用いられてきたが,特にデータが限られている場合には性能のパラメータ依存性,学習データへの過剰適合が問題となり,適切な学習が困難であった.本稿では,単一話者に対して高い品質を示しつつも頑健な学習が可能とされる,深層ガウス過程に基づく音声合成の枠組みを多話者の場合に拡張する.実験的評価により,提案手法を用いることで(1)ハイパーパラメータに対して頑健な性能が得られること,(2)従来のDNN多話者音声合成と比較してより高い自然性,話者類似性を有する音声が合成できることを示す.
抄録(英) Speaker codes are widely used to achieve multi-speaker text-to-speech synthesis. Conventionally, Deep Neural Network (DNN) has been used for the duration/acoustic model of multi-speaker modeling using speaker codes. However, especially when training data is limited, its parameter-dependent performance and overfitting become serious problems. On the other hand, Deep Gaussian Processes (DGP)-based speech synthesis has shown better performance than DNN-based method in single-speaker speech synthesis, while it's less vulnerable to overfitting. In this paper, we apply the framework of DGP-based speech synthesis to multi-speaker modeling. Experimental results demonstrate that the proposed model is able to generate speech with higher naturalness and speaker similarity. Also, we show that robust performance against hyperparameters can be obtained with our method.
キーワード(和) 統計的パラメトリック音声合成 / 深層ガウス過程 / 多話者音声合成 / 話者コード
キーワード(英) statistical parametric speech synthesis / deep Gaussian processes / multi-speaker speech synthesis / speaker codes
資料番号 SP2019-49
発行日 2020-01-21 (SP)

研究会情報
研究会 SP
開催期間 2020/1/28(から2日開催)
開催地(和) 高岡市生涯学習センター
開催地(英)
テーマ(和) 音声一般,生成,合成,認識,検出,音声生成
テーマ(英)
委員長氏名(和) 河井 恒(NICT)
委員長氏名(英) Hisashi Kawai(NICT)
副委員長氏名(和) 李 晃伸(名工大)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 南條 浩輝(京大) / 小川 哲司(早大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.)
幹事補佐氏名(和) 郡山 知樹(東大) / 井島 勇祐(NTT)
幹事補佐氏名(英) Tomoki Koriyama(Univ. of Tokyo) / Yusuke Ijima(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech
本文の言語 JPN
タイトル(和) 話者コードを用いた多話者音声合成における深層ガウス過程の利用
サブタイトル(和)
タイトル(英) Application of Deep Gaussian Process to Multi-Speaker Text-to-Speech Synthesis using Speaker Codes
サブタイトル(和)
キーワード(1)(和/英) 統計的パラメトリック音声合成 / statistical parametric speech synthesis
キーワード(2)(和/英) 深層ガウス過程 / deep Gaussian processes
キーワード(3)(和/英) 多話者音声合成 / multi-speaker speech synthesis
キーワード(4)(和/英) 話者コード / speaker codes
第 1 著者 氏名(和/英) 三井 健太郎 / Kentaro Mitsui
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 郡山 知樹 / Tomoki Koriyama
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 3 著者 氏名(和/英) 猿渡 洋 / Hiroshi Saruwatari
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2020-01-29
資料番号 SP2019-49
巻番号(vol) vol.119
号番号(no) SP-398
ページ範囲 pp.31-36(SP),
ページ数 6
発行日 2020-01-21 (SP)