GP-DNNハイブリッドモデルに基づく統計的音声合成の検討

郡山 知樹; 小林 隆夫

講演名	2018-01-20 GP-DNNハイブリッドモデルに基づく統計的音声合成の検討郡山知樹(東工大), 小林隆夫(東工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿では，ガウス過程回帰(GPR)に基づく音声合成の新しいアプローチを提案する．従来のGPRに基づく音声合成は，近似のために木構造によるブロック分割を用いていることから，性能が木構造による予測に依存するという問題があった．そこで本研究では，確率的勾配降下法により効率的な学習の可能な確率的変分ガウス過程(SVGP)と，コンテキストの特徴抽出器としてのディープニューラルネットワーク(DNN)を組み合わせたハイブリッド手法を提案する．客観評価と主観評価の実験結果から、提案手法はブロック分割を用いた従来のGPR音声合成やDNNに基づく音声合成に比べ自然な音声が合成可能であることを示す．
抄録(英)	We propose a novel approach to Gaussian process regression (GPR)-based speech synthesisin this paper. Since the conventional GPR-based speech synthesis was based on data partition with a decision tree, a decision tree was bottleneck of the performance of synthetic speech. In contrast, we propose a hybrid model of Gaussian process and deep neural network (DNN). In the hybrid model, DNN extracts context-derived featuresand the output of DNN is used as an input of Gaussian process. The parameters of DNN and GP are optimized using a minibatch-basedstochastic gradient descent method. From the subjective evaluation results, it can be seen that the proposed technique outperforms not only the conventionalGPR-based speech synthesis with decision treesbut also DNN-based speech synthesis.
キーワード(和)	ガウス過程回帰 / 確率的変分ベイズ / ニューラルネットワーク / 統計的パラメトリック音声合成
キーワード(英)	Gaussian process regression / stochastic variational inference / neural network / statistical parametric speech synthesis
資料番号	SP2017-67
発行日	2018-01-13 (SP)

研究会情報
研究会	SP / ASJ-H
開催期間	2018/1/20(から2日開催)
開催地（和）	東京大学
開催地（英）	The University of Tokyo
テーマ（和）	音声合成，音声コミュニケーション，聴覚，音声一般
テーマ（英）
委員長氏名（和）	山下洋一(立命館大) / 平原達也(富山県立大)
委員長氏名（英）	Yoichi Yamashita(Ritsumeikan Univ.) / 平原達也(富山県立大)
副委員長氏名（和）	森大毅(宇都宮大) / 中川誠司(千葉大)
副委員長氏名（英）	Hiroki Mori(Utsunomiya Univ.) / 中川誠司(千葉大)
幹事氏名（和）	西田昌史(静岡大) / 坂野秀樹(名城大) / 木谷俊介(北陸大) / 山川仁子(尚絅大) / 饗庭絵里子(電通大)
幹事氏名（英）	Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷俊介(北陸大) / 山川仁子(尚絅大) / 饗庭絵里子(電通大)
幹事補佐氏名（和）	橋本佳(名工大) / 小橋川哲(NTT)
幹事補佐氏名（英）	Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Auditory Research Meeting
本文の言語	JPN
タイトル（和）	GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
サブタイトル（和）
タイトル（英）	A study on statistical speech synthesis based on GP-DNN hybrid model
サブタイトル（和）
キーワード(1)（和/英）	ガウス過程回帰 / Gaussian process regression
キーワード(2)（和/英）	確率的変分ベイズ / stochastic variational inference
キーワード(3)（和/英）	ニューラルネットワーク / neural network
キーワード(4)（和/英）	統計的パラメトリック音声合成 / statistical parametric speech synthesis
第 1 著者氏名（和/英）	郡山知樹 / Tomoki Koriyama
第 1 著者所属（和/英）	東京工業大学(略称：東工大) Tokyo Institute of Technology(略称：Tokyo Tech)
第 2 著者氏名（和/英）	小林隆夫 / Takao Kobayashi
第 2 著者所属（和/英）	東京工業大学(略称：東工大) Tokyo Institute of Technology(略称：Tokyo Tech)
発表年月日	2018-01-20
資料番号	SP2017-67
巻番号（vol）	vol.117
号番号（no）	SP-393
ページ範囲	pp.5-10(SP),
ページ数	6
発行日	2018-01-13 (SP)