講演抄録/キーワード |
講演名 |
2021-03-04 09:00
ソースフィルタ型音声合成の敵対的学習による最適化 ○光井勇人・杉浦陽介・安井希子・島村徹也(埼玉大) SIS2020-35 |
抄録 |
(和) |
本研究は,深層学習を用いたソースフィルタ型の音声波形生成モデルの精度向上を目的とする.ソースフィルタ型の音声波形生成モデルは,PixelCNNを基とするWaveNetと比べて少ない演算量で実装可能である一方,音質の低下が問題であった.そこで生成音声の自然性を担保するために,従来の手法に,敵対的学習によるマルチタスク学習の機構を導入する.提案法では,MelGANをベースとする敵対的学習を利用し,波形領域での再現性能を考慮する.実験の結果から,提案法は従来法では表現することが出来なかった音声のダイナミクスを得ることができることを示す. |
(英) |
This research aims to improve the accuracy of the source-filter based speech waveform generation model using deep learning. While the source-filter based speech waveform generation model can be implemented with lower computational cost compared with WaveNet based on Pixel CNN, this model produces a low-quality speech. To maintain the naturalness of the generated speech, we introduce a mutli-task training architecture using the adversarial training. In the proposed method, we use the architecture of MelGAN as the adversarial training. From the experimental results, we reveal that the proposed method can obtain the dynamics of speech which was lost in the case of the conventional method. |
キーワード |
(和) |
深層学習 / 音声合成 / ソースフィルタ理論 / 敵対的学習 / / / / |
(英) |
Deep Learning / Speech synthesis / Source-Filter theory / Adversarial training / / / / |
文献情報 |
信学技報, vol. 120, no. 415, SIS2020-35, pp. 1-4, 2021年3月. |
資料番号 |
SIS2020-35 |
発行日 |
2021-02-25 (SIS) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SIS2020-35 |
|