ソースフィルタ型音声合成の敵対的学習による最適化

光井 勇人; 杉浦 陽介; 安井 希子; 島村 徹也

講演名	2021-03-04 ソースフィルタ型音声合成の敵対的学習による最適化光井勇人(埼玉大), 杉浦陽介(埼玉大), 安井希子(埼玉大), 島村徹也(埼玉大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究は，深層学習を用いたソースフィルタ型の音声波形生成モデルの精度向上を目的とする．ソースフィルタ型の音声波形生成モデルは，PixelCNNを基とするWaveNetと比べて少ない演算量で実装可能である一方，音質の低下が問題であった．そこで生成音声の自然性を担保するために，従来の手法に，敵対的学習によるマルチタスク学習の機構を導入する．提案法では，MelGANをベースとする敵対的学習を利用し，波形領域での再現性能を考慮する．実験の結果から，提案法は従来法では表現することが出来なかった音声のダイナミクスを得ることができることを示す．
抄録(英)	This research aims to improve the accuracy of the source-filter based speech waveform generation model using deep learning. While the source-filter based speech waveform generation model can be implemented with lower computational cost compared with WaveNet based on Pixel CNN, this model produces a low-quality speech. To maintain the naturalness of the generated speech, we introduce a mutli-task training architecture using the adversarial training. In the proposed method, we use the architecture of MelGAN as the adversarial training. From the experimental results, we reveal that the proposed method can obtain the dynamics of speech which was lost in the case of the conventional method.
キーワード(和)	深層学習 / 音声合成 / ソースフィルタ理論 / 敵対的学習
キーワード(英)	Deep Learning / Speech synthesis / Source-Filter theory / Adversarial training
資料番号	SIS2020-35
発行日	2021-02-25 (SIS)

研究会情報
研究会	SIS
開催期間	2021/3/4(から2日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	ソフトコンピューティング,一般
テーマ（英）	Soft Computing, etc.
委員長氏名（和）	末竹規哲(山口大)
委員長氏名（英）	Noriaki Suetake(Yamaguchi Univ.)
副委員長氏名（和）	木村誠聡(神奈川工科大) / 笹岡直人(鳥取大)
副委員長氏名（英）	Tomoaki Kimura(Kanagawa Inst. of Tech.) / Naoto Sasaoka(Tottori Univ.)
幹事氏名（和）	古賀崇了(近畿大) / 三澤秀明(宇部高専)
幹事氏名（英）	Takanori Koga(Kindai Univ.) / Hideaki Misawa(National Inst. of Tech., Ube College)
幹事補佐氏名（和）	坂東幸浩(NTT) / 吉田壮(関西大学)
幹事補佐氏名（英）	Yukihiro Bandoh(NTT) / Soh Yoshida(Kansai Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Smart Info-Media Systems
本文の言語	JPN
タイトル（和）	ソースフィルタ型音声合成の敵対的学習による最適化
サブタイトル（和）
タイトル（英）	Optimization source-filtere based speech waveform generation using adversarial training
サブタイトル（和）
キーワード(1)（和/英）	深層学習 / Deep Learning
キーワード(2)（和/英）	音声合成 / Speech synthesis
キーワード(3)（和/英）	ソースフィルタ理論 / Source-Filter theory
キーワード(4)（和/英）	敵対的学習 / Adversarial training
第 1 著者氏名（和/英）	光井勇人 / Hayato Mitsui
第 1 著者所属（和/英）	埼玉大学大学院理工学研究科(略称：埼玉大) Graduate School of Science and Engineering, Saitama University(略称：Saitama Univ.)
第 2 著者氏名（和/英）	杉浦陽介 / Yosuke Sugiura
第 2 著者所属（和/英）	埼玉大学大学院理工学研究科(略称：埼玉大) Graduate School of Science and Engineering, Saitama University(略称：Saitama Univ.)
第 3 著者氏名（和/英）	安井希子 / Nozomiko Yasui
第 3 著者所属（和/英）	埼玉大学大学院理工学研究科(略称：埼玉大) Graduate School of Science and Engineering, Saitama University(略称：Saitama Univ.)
第 4 著者氏名（和/英）	島村徹也 / Tetsuya Shimamura
第 4 著者所属（和/英）	埼玉大学大学院理工学研究科(略称：埼玉大) Graduate School of Science and Engineering, Saitama University(略称：Saitama Univ.)
発表年月日	2021-03-04
資料番号	SIS2020-35
巻番号（vol）	vol.120
号番号（no）	SIS-415
ページ範囲	pp.1-4(SIS),
ページ数	4
発行日	2021-02-25 (SIS)