講演抄録/キーワード |
講演名 |
2017-06-22 14:45
敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング ○金子卓弘(NTT)・高木信二(NII)・亀岡弘和(NTT)・山岸順一(NII) PRMU2017-28 SP2017-4 |
抄録 |
(和) |
本稿では,短時間フーリエ変換(STFT)スペクトログラム中のスペクトルのテクスチャを復元するための敵対的学習ベースのポストフィルタを提案する.STFTスペクトログラムは,音声合成,音声変換,音声強調,音声分離など音声信号処理分野で広く使われて鍵となっている音響特徴量であり,各々のタスクでは,入力データから真の音声データに近いSTFTスペクトログラムを合成することが目標となる.しかし,実際には統計的平均化の影響によって過剰な平滑化が生じ,合成されたスペクトログラムは微細な構造を失ってしまうことが多い.本稿では,この問題を解決するために敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング手法を提案する.このアプローチでは,従来の分布を陽に仮定する手法と異なり,敵対的な学習の過程で,陰に真のデータ分布を学習することが可能であるため,統計的な平均化による過剰な平滑化の影響を回避することが可能である.敵対的学習を用いる際の一つの懸念事項として,STFTスペクトログラムのような高次元データに適用することが難しい点があるが,これに対しては,データを複数の周波数帯域に分割して,それぞれの帯域で復元を行い,接合するというシンプルな方法をとることによって解決する.実験では,深層学習ベースのテキスト音声合成のタスクに対して本手法を適用して検証を行い,STFTスペクトログラムのような高次元データに対しても敵対的学習に基づくポストフィルタリングが有効であることを示した. |
(英) |
This paper presents postfiltering of short-term Fourier transform (STFT) spectrograms based on Generative Adversarial Networks (GANs). The STFT spectrograms have been widely used as key acoustic representations in the field of speech processing, such as speech synthesis, voice conversion, speech enhancement, and speech separation. In these tasks, the normal goal is to precisely predict or generate the representations from inputs; however, the quality of generated spectra is typically degraded by over-smoothing. To solve this problem, we propose postfiltering based on GANs, which make it possible to generate random samples following the underlying data distribution without the need for the explicit form of its density. As it is not easy for a GAN to be trained for very high-dimensional data such as the STFT spectra, we use a simple divide-and-concatenate approach, where we divide a spectrogram into multiple bands, reconstruct the individual bands using the GAN-based postfilter trained for each one, and concatenate them. We tested our postfilter on a deep neural network-based text-to-speech task and confirmed that the use of our postfilter had a certain effect in reducing the gap between synthesized and target spectra, even in the high-dimensional STFT domain. |
キーワード |
(和) |
ポストフィルタ / 深層学習 / 敵対的学習 / 統計的パラメトリック音声合成 / / / / |
(英) |
postfilter / deep neural network / generative adversarial network / statistic parametric speech synthesis / / / / |
文献情報 |
信学技報, vol. 117, no. 106, SP2017-4, pp. 17-22, 2017年6月. |
資料番号 |
SP2017-4 |
発行日 |
2017-06-15 (PRMU, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2017-28 SP2017-4 |
|