DNN音声合成における感情付与のためのモデル構造の検討

井上 勝喜; 原 直; 阿部 匡伸; 北条 伸克; 井島 勇祐

講演名	2017-06-22 DNN音声合成における感情付与のためのモデル構造の検討井上勝喜(岡山大), 原直(岡山大), 阿部匡伸(岡山大), 北条伸克(NTT), 井島勇祐(NTT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	DNN 音声合成は，従来のHMM 音声合成に比べ，より自然な音声が合成可能であることが示されている．また，HMM 音声合成では合成音声を多様化するために感情付与の手法が研究されている．しかし，DNN 音声合成においても感情付与が可能であるかは明らかでない．そこで，DNN に基づく音声合成システムの表現力を向上させる方法として，本報告では感情付与のためのDNN のモデル構造を検討した．感情付与のためのモデル構造として，次の3 種類を比較した．すなわち，（1）Parallel Model：出力層が話者依存の層と感情依存の層からなる構造，（2）SerialModel：話者依存の層から感情依存の出力層へと伝播する構造，（3）Auxiliary Input Model：言語特徴量ベクトルと同様に話者ID と感情ID を入力する構造，の3 種類である．話者24 名の平常音声と話者24 名中の3 名の喜びと悲しみの音声により学習をおこなった．客観評価実験と主観評価実験により，各モデル構造を比較した．実験の結果，学習データに平常音声しかない話者の声質で感情音声を合成する場合，Parallel Model がSerial Model よりも良く，Auxiliary Input Model よりもわずかに良いことが明らかとなった．また，学習データ中に感情音声を含む話者の声質で感情音声を合成する場合，Serial Model が最も良い性能を示した．
抄録(英)	Recent studies have shown that DNN-based speech synthesis can generate more natural synthesized speech than the conventional HMM-based speech synthesis. There are some studies that the method of emotional transplantation in order to variegate synthesized speech in HMM-based speech synthesis. However, it is not revealed whether emotion can be transplanted in DNN-based speech synthesis. In this paper, we compare DNN architectures in order to transplant emotional expressions to improve expressiveness of DNN-based TTS synthesis. The following three kinds of DNN architectures are examined. (1) Parallel Model : an output layer consisted of both speaker dependent layers and emotion dependent layers. (2) Serial Model : an output layer consisted of emotion dependent layers preceded by speaker dependent layers. (3) Auxiliary Input Model : an input layer consisted of speaker ID and emotion ID as well as linguistic feature vectors. The DNNs were trained using neutral speech uttered by 24 speakers, and joyful speech and sad speech uttered by 3 speakers out of the 24 speakers. The DNNs were compared by the objective evaluation and the subjective evaluation. When synthesizing unseen emotion, evaluation results showed that Parallel Model is much better than Serial Model and is slightly better than Auxiliary Input Model. Also the test showed that Serial Model is the best of the three models when synthesizing seen emotion.
キーワード(和)	音声合成 / DNN / 感情付与 / マルチタスク学習
キーワード(英)	speech synthesis / deep neural network / emotional transplantation / multi-task learning
資料番号	PRMU2017-29,SP2017-5
発行日	2017-06-15 (PRMU, SP)

研究会情報
研究会	PRMU / SP
開催期間	2017/6/22(から2日開催)
開催地（和）	東北大学
開催地（英）
テーマ（和）	様々なメディア
テーマ（英）
委員長氏名（和）	佐藤真一(NII) / 山下洋一(立命館大)
委員長氏名（英）	Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名（和）	藤吉弘亘(中部大) / 井尻善久(オムロン) / 森大毅(宇都宮大)
副委員長氏名（英）	Hironobu Fujiyoshi(Chubu Univ.) / Yoshihisa Ijiri(Omron) / Hiroki Mori(Utsunomiya Univ.)
幹事氏名（和）	大西正輝(産総研) / 舩冨卓哉(奈良先端大) / 西田昌史(静岡大) / 坂野秀樹(名城大)
幹事氏名（英）	Masaki Oonishi(AIST) / Takuya Funatomi(NAIST) / Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名（和）	石井雅人(NEC) / 菅野裕介(阪大) / 橋本佳(名工大) / 小橋川哲(NTT)
幹事補佐氏名（英）	Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語	JPN
タイトル（和）	DNN音声合成における感情付与のためのモデル構造の検討
サブタイトル（和）
タイトル（英）	Comparisons on Transplant Emotional Expressions in DNN-based TTS Synthesis
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	DNN / deep neural network
キーワード(3)（和/英）	感情付与 / emotional transplantation
キーワード(4)（和/英）	マルチタスク学習 / multi-task learning
第 1 著者氏名（和/英）	井上勝喜 / Katsuki Inoue
第 1 著者所属（和/英）	岡山大学(略称：岡山大) Okayama University(略称：Okayama Univ.)
第 2 著者氏名（和/英）	原直 / Sunao Hara
第 2 著者所属（和/英）	岡山大学(略称：岡山大) Okayama University(略称：Okayama Univ.)
第 3 著者氏名（和/英）	阿部匡伸 / Masanobu Abe
第 3 著者所属（和/英）	岡山大学(略称：岡山大) Okayama University(略称：Okayama Univ.)
第 4 著者氏名（和/英）	北条伸克 / Nobukatsu Hojo
第 4 著者所属（和/英）	日本電信電話(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
第 5 著者氏名（和/英）	井島勇祐 / Yusuke Ijima
第 5 著者所属（和/英）	日本電信電話(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
発表年月日	2017-06-22
資料番号	PRMU2017-29,SP2017-5
巻番号（vol）	vol.117
号番号（no）	PRMU-105,SP-106
ページ範囲	pp.23-28(PRMU), pp.23-28(SP),
ページ数	6
発行日	2017-06-15 (PRMU, SP)