雑音情報を含めたマルチタスク学習による音声強調ネットワークの性能改善

田中 晴樹; 杉浦 陽介; 安井 希子; 島村 徹也; 宮崎 亮一

講演名	2019-12-12 雑音情報を含めたマルチタスク学習による音声強調ネットワークの性能改善田中晴樹(徳山高専), 杉浦陽介(埼玉大), 安井希子(埼玉大), 島村徹也(埼玉大), 宮崎亮一(徳山高専),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	現在，信号処理分野では音声強調に対する関心が高まっている．近年，深層学習を用いた多くの音声強調手法が提案されており，その中でも波形データを入出力とし，ネットワークにオートエンコーダを用いるSEGANやWave-U-Netが高い性能を発揮している．本論文では，雑音混入音声に含まれる音声と雑音の情報を同時に学習する2つのオートエンコーダを持ち，それらの潜在ベクトルを互いに条件付けるアーキテクチャによる音声強調手法を提案する．我々のネットワークの入力は雑音混入音声を使用し，一方のオートエンコーダがクリーン音声，他方が雑音情報を出力する．客観評価実験では，提案手法がPESQ，CSIG，COVLによる客観評価尺度でSEGANのスコアを超えたことを示した．
抄録(英)	In the signal processing field, there is a growing interest in speech enhancement.Recently, a lot of speech enhancement methods using deep learning have been proposed. Mostly, SEGAN and Wave-U-Net, which use waveform data as input/output and automatic encoder for network, have shown high performance. In this paper, we propose a speech enhancement method based on an architecture mutually constraining latent vectors of two autoencoders simultaneously learning speech and noise information contained in noise mixed speech. The input of our network uses noise-contaminated speech, and one auto-encoder outputs clean speech and the other outputs noise information. In the experiment, we show that the proposed method exceeded the score of SEGAN in the objective evaluation scale by PESQ, CSIG, and COVL.
キーワード(和)	音声強調 / 深層学習 / オートエンコーダ / マルチタスク学習 / 敵対的生成ネットワーク
キーワード(英)	Speech Enhancement / Deep Learning / Autoencoder / Malti-task Learning / Generative Adversarial Nets
資料番号	EA2019-70
発行日	2019-12-05 (EA)

研究会情報
研究会	EA
開催期間	2019/12/12(から2日開催)
開催地（和）	九州工業大学戸畑キャンパス（北九州市）
開催地（英）	Kyushu Inst. Tech.
テーマ（和）	応用／電気音響，一般
テーマ（英）	Engineering/Electro Acoustics, and Related Topics
委員長氏名（和）	古家賢一(大分大)
委員長氏名（英）	Kenichi Furuya(Oita Univ.)
副委員長氏名（和）	島内末廣(金沢工大) / 武岡成人(静岡理工科大)
副委員長氏名（英）	Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.)
幹事氏名（和）	松井健太郎(NHK) / 小山翔一(東大)
幹事氏名（英）	Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo)
幹事補佐氏名（和）	井本桂右(立命館大) / 森川大輔(富山県立大)
幹事補佐氏名（英）	Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics
本文の言語	JPN
タイトル（和）	雑音情報を含めたマルチタスク学習による音声強調ネットワークの性能改善
サブタイトル（和）
タイトル（英）	Performance improvement of speech enhancement network by multitask learning including noise information
サブタイトル（和）
キーワード(1)（和/英）	音声強調 / Speech Enhancement
キーワード(2)（和/英）	深層学習 / Deep Learning
キーワード(3)（和/英）	オートエンコーダ / Autoencoder
キーワード(4)（和/英）	マルチタスク学習 / Malti-task Learning
キーワード(5)（和/英）	敵対的生成ネットワーク / Generative Adversarial Nets
第 1 著者氏名（和/英）	田中晴樹 / Haruki Tanaka
第 1 著者所属（和/英）	徳山工業高等専門学校(略称：徳山高専) National Institute of Technology, Tokuyama College(略称：NITTC)
第 2 著者氏名（和/英）	杉浦陽介 / Yosuke Sugiura
第 2 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 3 著者氏名（和/英）	安井希子 / Nozomiko Yasui
第 3 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 4 著者氏名（和/英）	島村徹也 / Tetsuya Shimamura
第 4 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 5 著者氏名（和/英）	宮崎亮一 / Ryoichi Miyazaki
第 5 著者所属（和/英）	徳山工業高等専門学校(略称：徳山高専) National Institute of Technology, Tokuyama College(略称：NITTC)
発表年月日	2019-12-12
資料番号	EA2019-70
巻番号（vol）	vol.119
号番号（no）	EA-334
ページ範囲	pp.31-36(EA),
ページ数	6
発行日	2019-12-05 (EA)