電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2018-01-20 13:25
GP-DNNハイブリッドモデルに基づく統計的音声合成の検討
郡山知樹小林隆夫東工大
技報オンラインサービス実施中
抄録 (和) 本稿では,ガウス過程回帰(GPR)に基づく音声合成の新しいアプローチを提案する.
従来のGPRに基づく音声合成は,近似のために木構造によるブロック分割を用いていることから,
性能が木構造による予測に依存するという問題があった.
そこで本研究では,確率的勾配降下法により効率的な学習の可能な確率的変分ガウス過程(SVGP)と,
コンテキストの特徴抽出器としてのディープニューラルネットワーク(DNN)を組み合わせたハイブリッド手法を提案する.
客観評価と主観評価の実験結果から、提案手法はブロック分割を用いた従来のGPR音声合成や
DNNに基づく音声合成に比べ自然な音声が合成可能であることを示す. 
(英) We propose a novel approach to Gaussian process regression (GPR)-based speech synthesis
in this paper.
Since the conventional GPR-based speech synthesis was based on data partition with a decision tree,
a decision tree was bottleneck of the performance of synthetic speech.
In contrast, we propose a hybrid model of Gaussian process and deep neural network (DNN).
In the hybrid model, DNN extracts context-derived features
and the output of DNN is used as an input of Gaussian process.
The parameters of DNN and GP are optimized using a minibatch-based
stochastic gradient descent method.
From the subjective evaluation results,
it can be seen that the proposed technique outperforms not only the conventional
GPR-based speech synthesis with decision trees
but also DNN-based speech synthesis.
キーワード (和) ガウス過程回帰 / 確率的変分ベイズ / ニューラルネットワーク / 統計的パラメトリック音声合成 / / / /  
(英) Gaussian process regression / stochastic variational inference / neural network / statistical parametric speech synthesis / / / /  
文献情報 信学技報, vol. 117, no. 393, SP2017-67, pp. 5-10, 2018年1月.
資料番号 SP2017-67 
発行日 2018-01-13 (SP) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380

研究会情報
研究会 SP ASJ-H  
開催期間 2018-01-20 - 2018-01-21 
開催地(和) 東京大学 
開催地(英) The University of Tokyo 
テーマ(和) 音声合成,音声コミュニケーション,聴覚,音声一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2018-01-SP-H 
本文の言語 日本語 
タイトル(和) GP-DNNハイブリッドモデルに基づく統計的音声合成の検討 
サブタイトル(和)  
タイトル(英) A study on statistical speech synthesis based on GP-DNN hybrid model 
サブタイトル(英)  
キーワード(1)(和/英) ガウス過程回帰 / Gaussian process regression  
キーワード(2)(和/英) 確率的変分ベイズ / stochastic variational inference  
キーワード(3)(和/英) ニューラルネットワーク / neural network  
キーワード(4)(和/英) 統計的パラメトリック音声合成 / statistical parametric speech synthesis  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 郡山 知樹 / Tomoki Koriyama / コオリヤマ トモキ
第1著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Tech)
第2著者 氏名(和/英/ヨミ) 小林 隆夫 / Takao Kobayashi / コバヤシ タカオ
第2著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Tech)
第3著者 氏名(和/英/ヨミ) / /
第3著者 所属(和/英) (略称: )
(略称: )
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2018-01-20 13:25:00 
発表時間 25 
申込先研究会 SP 
資料番号 IEICE-SP2017-67 
巻番号(vol) IEICE-117 
号番号(no) no.393 
ページ範囲 pp.5-10 
ページ数 IEICE-6 
発行日 IEICE-SP-2018-01-13 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会