大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討

西澤 信行; 服部 元

講演名	2021-10-19 大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討西澤信行(KDDI総合研究所), 服部元(KDDI総合研究所),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では、接続合成用に収集された大規模音声コーパスを用いて、DNN-HSMM音声合成のためのモデル学習を行った。従来のHSMM音声合成では入力である言語情報に対応するHSMMのパラメータを決定木で予測していたが、DNN-HSMM音声合成はこの予測にDNNを用いており、より高い合成音品質が期待できる。しかし、HSMMの状態継続長分布のパラメータを同時にDNNで推定するため、モデル学習の初期段階では学習データに対してHSMMの状態のアラインメントを適切に行うことができず、確率的勾配法によるモデル学習が進まない可能性がある。特にDNNにLSTM（long short-term memory）を用いたRNNを用いた場合の学習時の挙動については充分な検討が行われていない。そこで本研究では大規模な音声学習セットを用いて、LSTMを用いた場合のモデル学習時の挙動について調べた。実験の結果、オプティマイザの学習率を適切に設定することで、パラメータをランダムに設定した初期状態からモデル学習が可能なこと、また、各層が2048セルのLSTMで構成される3層の双方向RNNを用いた場合、推定誤差性能が飽和する学習データサイズは20.6時間以上であることが分かった。
抄録(英)	In this study, an investigation into model training for DNN-HSMM-based speech synthesis using a large speech corpus collected for connection synthesis was conducted. While conventional HSMM-based speech synthesis uses decision trees to predict the HSMM parameters corresponding to the linguistic information, DNN-HSMM-based speech synthesis uses DNNs for this prediction. Thus, it is expected to synthesize higher quality sounds by the method. However, since the parameters of the state duration distributions of the HSMMs are simultaneously estimated by the training, the training by the stochastic gradient method may not properly progress in the early stage of model training where the states cannot be appropriately aligned with training data yet. In particular, the behavior of training of RNNs using LSTM (long short-term memory) for DNN-HSMM-based speech synthesis has not yet been sufficiently studied. The experimental results show that the model can be trained from the randomly initialized states by setting the learning rate of the optimizer appropriately, and the training data size at which performance of the prediction saturates is more than 20.6 hours where using a three-layer bidirectional RNN where each layer consists of 2048-cell LSTMs.
キーワード(和)	DMM-HSMM音声合成 / 隠れセミマルコフモデル / 大規模音声コーパス
キーワード(英)	DNN-HSMM-based speech synthesis / hidden semi-Marcov models / large-scale speech corpus
資料番号	SP2021-34,WIT2021-27
発行日	2021-10-12 (SP, WIT)

研究会情報
研究会	SP / WIT / IPSJ-SLP / ASJ-H
開催期間	2021/10/19(から1日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	一般
テーマ（英）
委員長氏名（和）	北岡教英(豊橋技科大) / 酒向慎司(名工大) / 北岡教英(豊橋技科大) / 加藤宏明(情報通信研究機構)
委員長氏名（英）	Norihide Kitaoka(Toyohashi Univ. of Tec) / Shinji Sakou(Nagoya Inst. of Tech.) / Norihide Kitaoka(Toyohashi Univ. of Tec) / Hiroaki Kato(NICT)
副委員長氏名（和）	/ 雨宮智浩(東大) / / 坂本修一(東北大学)
副委員長氏名（英）	/ Tomohiro Amemiya(Univ. of Tokyo) / / Shuichi Sakamoto(Tohoku University)
幹事氏名（和）	高道慎之介(東大) / 高島遼一(神戸大) / 半田隆志(埼玉県産業技術総合センター) / 塩野目剛亮(帝京大) / 宮城愛美(筑波技術大) / 高道慎之介(東大) / 高島遼一(神戸大) / 中鹿亘(電通大) / 増村亮(NTT) / 松井淑恵(豊橋技術科学大学) / 橘亮輔(東京大学) / 寺島裕貴(NTT)
幹事氏名（英）	Shinnosuke Takamichi(Univ. of Tokyo) / Ryouichi Takashima(Kobe Univ.) / Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Manabi Miyagi(Tsukuba Univ. of Tech.) / Shinnosuke Takamichi(Univ. of Tokyo) / Ryouichi Takashima(Kobe Univ.) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toshie Matsui(Toyohashi Tech) / Ryosuke Tachibana(Univ. of Tokyo) / Hiroki Terashima(NTT)
幹事補佐氏名（和）	中鹿亘(電通大) / 増村亮(NTT) / 細野美奈子(産総研) / 菅野亜紀(名大) / 小森智康(NHK)
幹事補佐氏名（英）	Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) / Tomoyasu Komori(NHK)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Technical Committee on Well-being Information Technology / Special Interest Group on Spoken Language Processing / Auditory Research Meeting
本文の言語	JPN
タイトル（和）	大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討
サブタイトル（和）
タイトル（英）	A study on model training for DNN-HSMM-based speech synthesis using a large-scale speech corpus
サブタイトル（和）
キーワード(1)（和/英）	DMM-HSMM音声合成 / DNN-HSMM-based speech synthesis
キーワード(2)（和/英）	隠れセミマルコフモデル / hidden semi-Marcov models
キーワード(3)（和/英）	大規模音声コーパス / large-scale speech corpus
第 1 著者氏名（和/英）	西澤信行 / Nobuyuki Nishizawa
第 1 著者所属（和/英）	KDDI総合研究所(略称：KDDI総合研究所) KDDI Research, Inc.(略称：KDDI Research)
第 2 著者氏名（和/英）	服部元 / Gen Hattori
第 2 著者所属（和/英）	KDDI総合研究所(略称：KDDI総合研究所) KDDI Research, Inc.(略称：KDDI Research)
発表年月日	2021-10-19
資料番号	SP2021-34,WIT2021-27
巻番号（vol）	vol.121
号番号（no）	SP-202,WIT-203
ページ範囲	pp.52-57(SP), pp.52-57(WIT),
ページ数	6
発行日	2021-10-12 (SP, WIT)