講演名 2018-06-29
時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討
中尾 健人(名工大), 橋本 佳(名工大), 大浦 圭一郎(名工大), 南角 吉彦(名工大), 徳田 恵一(名工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,音響特徴量とその時間構造の同時モデル化が可能である MDN-HSMM に基づく音声合成における話者適応を提案する.ディープニューラルネットワーク (Deep Neural Network; DNN) に基づく音声合成における話者適応は, 外部の継続長予測器を用いて推定された継続長情報に基づき行われるため,音声の時間構造を考慮した話者適応を行うことが不可能である.この問題点を解決するために,本研究ではニューラルネットワークの出力によって隠れセミマルコフモデル (Hidden Semi-Markov Model; HSMM) のパラメータを決定することで音響特徴量とその時間構造を統一的な枠組みでモデル化可能とする MDN-HSMM と呼ばれるモデルを導入し,話者適応を行う.MDN-HSMM を用いることで,音響特徴量と音声の時間構造を考慮した話者適応が可能となり,話者の特徴を適切に捉えることが可能となる.実験結果から,従来の DNN に基づく音声合成における話者適応と比較し,提案法は合成音声の自然性と話者性の改善を示した.
抄録(英) This paper proposes a speaker adaptation technique for speech synthesis based on deep neural networks (DNNs) using a structure of hidden semi-Markov models (HSMMs). Speaker adaptation techniques for DNN-based speech synthesis usually use the fixed time-alignments which are estimated by some external aligners. Therefore, acoustic features and temporal structuresof speech are separately adapted in speaker adaptation. To perform speaker adaptation considering temporal structures, a special type of mixture density network (MDN) called MDN-HSMM, which outputs parameters of HSMMs, is applied. Experimental results show that the proposed method improves the naturalness and speaker similarity of the synthesized speech from the speaker adaptation based on DNNs.
キーワード(和) 統計的パラメトリック音声合成 / 話者適応 / ニューラルネットワーク / 話者コード
キーワード(英) statistical parametric speech synthesis / speakre adaptation / neural network / speaker code
資料番号 PRMU2018-31,SP2018-11
発行日 2018-06-21 (PRMU, SP)

研究会情報
研究会 PRMU / SP
開催期間 2018/6/28(から2日開催)
開催地(和) 信州大学
開催地(英)
テーマ(和) マルチモーダル/クロスモーダルな認識、生成
テーマ(英)
委員長氏名(和) 佐藤 真一(NII) / 山下 洋一(立命館大)
委員長氏名(英) Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 井尻 善久(オムロン) / 玉木 徹(広島大) / 李 晃伸(名工大)
副委員長氏名(英) Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 石井 雅人(NEC) / 菅野 裕介(阪大) / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 入江 豪(NTT) / 牛久 祥孝(東大) / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 時間構造を考慮したニューラルネットワークに基づく音声合成における話者適応の検討
サブタイトル(和)
タイトル(英) Speaker adaptation in speech synthesis based on neural networks including temporal structure modeling
サブタイトル(和)
キーワード(1)(和/英) 統計的パラメトリック音声合成 / statistical parametric speech synthesis
キーワード(2)(和/英) 話者適応 / speakre adaptation
キーワード(3)(和/英) ニューラルネットワーク / neural network
キーワード(4)(和/英) 話者コード / speaker code
第 1 著者 氏名(和/英) 中尾 健人 / Kento Nakao
第 1 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 2 著者 氏名(和/英) 橋本 佳 / Kei Hashimoto
第 2 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 3 著者 氏名(和/英) 大浦 圭一郎 / Keiichiro Oura
第 3 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 4 著者 氏名(和/英) 南角 吉彦 / Yoshihiko Nankaku
第 4 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 5 著者 氏名(和/英) 徳田 恵一 / Keiichi Tokuda
第 5 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
発表年月日 2018-06-29
資料番号 PRMU2018-31,SP2018-11
巻番号(vol) vol.118
号番号(no) PRMU-111,SP-112
ページ範囲 pp.53-58(PRMU), pp.53-58(SP),
ページ数 6
発行日 2018-06-21 (PRMU, SP)