お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2017-06-22 14:45
敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング
金子卓弘NTT)・高木信二NII)・亀岡弘和NTT)・山岸順一NIIPRMU2017-28 SP2017-4
抄録 (和) 本稿では,短時間フーリエ変換(STFT)スペクトログラム中のスペクトルのテクスチャを復元するための敵対的学習ベースのポストフィルタを提案する.STFTスペクトログラムは,音声合成,音声変換,音声強調,音声分離など音声信号処理分野で広く使われて鍵となっている音響特徴量であり,各々のタスクでは,入力データから真の音声データに近いSTFTスペクトログラムを合成することが目標となる.しかし,実際には統計的平均化の影響によって過剰な平滑化が生じ,合成されたスペクトログラムは微細な構造を失ってしまうことが多い.本稿では,この問題を解決するために敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング手法を提案する.このアプローチでは,従来の分布を陽に仮定する手法と異なり,敵対的な学習の過程で,陰に真のデータ分布を学習することが可能であるため,統計的な平均化による過剰な平滑化の影響を回避することが可能である.敵対的学習を用いる際の一つの懸念事項として,STFTスペクトログラムのような高次元データに適用することが難しい点があるが,これに対しては,データを複数の周波数帯域に分割して,それぞれの帯域で復元を行い,接合するというシンプルな方法をとることによって解決する.実験では,深層学習ベースのテキスト音声合成のタスクに対して本手法を適用して検証を行い,STFTスペクトログラムのような高次元データに対しても敵対的学習に基づくポストフィルタリングが有効であることを示した. 
(英) This paper presents postfiltering of short-term Fourier transform (STFT) spectrograms based on Generative Adversarial Networks (GANs). The STFT spectrograms have been widely used as key acoustic representations in the field of speech processing, such as speech synthesis, voice conversion, speech enhancement, and speech separation. In these tasks, the normal goal is to precisely predict or generate the representations from inputs; however, the quality of generated spectra is typically degraded by over-smoothing. To solve this problem, we propose postfiltering based on GANs, which make it possible to generate random samples following the underlying data distribution without the need for the explicit form of its density. As it is not easy for a GAN to be trained for very high-dimensional data such as the STFT spectra, we use a simple divide-and-concatenate approach, where we divide a spectrogram into multiple bands, reconstruct the individual bands using the GAN-based postfilter trained for each one, and concatenate them. We tested our postfilter on a deep neural network-based text-to-speech task and confirmed that the use of our postfilter had a certain effect in reducing the gap between synthesized and target spectra, even in the high-dimensional STFT domain.
キーワード (和) ポストフィルタ / 深層学習 / 敵対的学習 / 統計的パラメトリック音声合成 / / / /  
(英) postfilter / deep neural network / generative adversarial network / statistic parametric speech synthesis / / / /  
文献情報 信学技報, vol. 117, no. 106, SP2017-4, pp. 17-22, 2017年6月.
資料番号 SP2017-4 
発行日 2017-06-15 (PRMU, SP) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード PRMU2017-28 SP2017-4

研究会情報
研究会 PRMU SP  
開催期間 2017-06-22 - 2017-06-23 
開催地(和) 東北大学 
開催地(英)  
テーマ(和) 様々なメディア 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2017-06-PRMU-SP 
本文の言語 日本語 
タイトル(和) 敵対的学習に基づくSTFTスペクトログラムのポストフィルタリング 
サブタイトル(和)  
タイトル(英) Postfiltering of STFT Spectrograms Based on Generative Adversarial Networks 
サブタイトル(英)  
キーワード(1)(和/英) ポストフィルタ / postfilter  
キーワード(2)(和/英) 深層学習 / deep neural network  
キーワード(3)(和/英) 敵対的学習 / generative adversarial network  
キーワード(4)(和/英) 統計的パラメトリック音声合成 / statistic parametric speech synthesis  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 金子 卓弘 / Takuhiro Kaneko / カネコ タクヒロ
第1著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NTT Corporation (略称: NTT)
第2著者 氏名(和/英/ヨミ) 高木 信二 / Shinji Takaki / タカキ シンジ
第2著者 所属(和/英) 国立情報学研究所 (略称: NII)
National Institute of Informatics (略称: NII)
第3著者 氏名(和/英/ヨミ) 亀岡 弘和 / Hirokazu Kameoka / カメオカ ヒロカズ
第3著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
NTT Corporation (略称: NTT)
第4著者 氏名(和/英/ヨミ) 山岸 順一 / Junichi Yamagishi / ヤマギシ ジュンイチ
第4著者 所属(和/英) 国立情報学研究所 (略称: NII)
National Institute of Informatics (略称: NII)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2017-06-22 14:45:00 
発表時間 30分 
申込先研究会 SP 
資料番号 PRMU2017-28, SP2017-4 
巻番号(vol) vol.117 
号番号(no) no.105(PRMU), no.106(SP) 
ページ範囲 pp.17-22 
ページ数
発行日 2017-06-15 (PRMU, SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会