講演名 | 2018-01-20 GP-DNNハイブリッドモデルに基づく統計的音声合成の検討 郡山 知樹(東工大), 小林 隆夫(東工大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿では,ガウス過程回帰(GPR)に基づく音声合成の新しいアプローチを提案する.従来のGPRに基づく音声合成は,近似のために木構造によるブロック分割を用いていることから,性能が木構造による予測に依存するという問題があった.そこで本研究では,確率的勾配降下法により効率的な学習の可能な確率的変分ガウス過程(SVGP)と,コンテキストの特徴抽出器としてのディープニューラルネットワーク(DNN)を組み合わせたハイブリッド手法を提案する.客観評価と主観評価の実験結果から、提案手法はブロック分割を用いた従来のGPR音声合成やDNNに基づく音声合成に比べ自然な音声が合成可能であることを示す. |
抄録(英) | We propose a novel approach to Gaussian process regression (GPR)-based speech synthesisin this paper. Since the conventional GPR-based speech synthesis was based on data partition with a decision tree, a decision tree was bottleneck of the performance of synthetic speech. In contrast, we propose a hybrid model of Gaussian process and deep neural network (DNN). In the hybrid model, DNN extracts context-derived featuresand the output of DNN is used as an input of Gaussian process. The parameters of DNN and GP are optimized using a minibatch-basedstochastic gradient descent method. From the subjective evaluation results, it can be seen that the proposed technique outperforms not only the conventionalGPR-based speech synthesis with decision treesbut also DNN-based speech synthesis. |
キーワード(和) | ガウス過程回帰 / 確率的変分ベイズ / ニューラルネットワーク / 統計的パラメトリック音声合成 |
キーワード(英) | Gaussian process regression / stochastic variational inference / neural network / statistical parametric speech synthesis |
資料番号 | SP2017-67 |
発行日 | 2018-01-13 (SP) |
研究会情報 | |
研究会 | SP / ASJ-H |
---|---|
開催期間 | 2018/1/20(から2日開催) |
開催地(和) | 東京大学 |
開催地(英) | The University of Tokyo |
テーマ(和) | 音声合成,音声コミュニケーション,聴覚,音声一般 |
テーマ(英) | |
委員長氏名(和) | 山下 洋一(立命館大) / 平原 達也(富山県立大) |
委員長氏名(英) | Yoichi Yamashita(Ritsumeikan Univ.) / 平原 達也(富山県立大) |
副委員長氏名(和) | 森 大毅(宇都宮大) / 中川 誠司(千葉大) |
副委員長氏名(英) | Hiroki Mori(Utsunomiya Univ.) / 中川 誠司(千葉大) |
幹事氏名(和) | 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大) |
幹事氏名(英) | Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大) |
幹事補佐氏名(和) | 橋本 佳(名工大) / 小橋川 哲(NTT) |
幹事補佐氏名(英) | Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech / Auditory Research Meeting |
---|---|
本文の言語 | JPN |
タイトル(和) | GP-DNNハイブリッドモデルに基づく統計的音声合成の検討 |
サブタイトル(和) | |
タイトル(英) | A study on statistical speech synthesis based on GP-DNN hybrid model |
サブタイトル(和) | |
キーワード(1)(和/英) | ガウス過程回帰 / Gaussian process regression |
キーワード(2)(和/英) | 確率的変分ベイズ / stochastic variational inference |
キーワード(3)(和/英) | ニューラルネットワーク / neural network |
キーワード(4)(和/英) | 統計的パラメトリック音声合成 / statistical parametric speech synthesis |
第 1 著者 氏名(和/英) | 郡山 知樹 / Tomoki Koriyama |
第 1 著者 所属(和/英) | 東京工業大学(略称:東工大) Tokyo Institute of Technology(略称:Tokyo Tech) |
第 2 著者 氏名(和/英) | 小林 隆夫 / Takao Kobayashi |
第 2 著者 所属(和/英) | 東京工業大学(略称:東工大) Tokyo Institute of Technology(略称:Tokyo Tech) |
発表年月日 | 2018-01-20 |
資料番号 | SP2017-67 |
巻番号(vol) | vol.117 |
号番号(no) | SP-393 |
ページ範囲 | pp.5-10(SP), |
ページ数 | 6 |
発行日 | 2018-01-13 (SP) |