多チャンネル変分自己符号化器法による任意話者の音源分離

李 莉; 亀岡 弘和; 井上 翔太; 牧野 昭二

講演名	2019-12-13 多チャンネル変分自己符号化器法による任意話者の音源分離李莉(筑波大), 亀岡弘和(NTT), 井上翔太(筑波大), 牧野昭二(筑波大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	多チャンネル変分自己符号化器(MVAE)は，各音源のスペクトログラムの生成過程を条件付変分自己符号化器(CVAE)を用いてモデル化した混合信号のモデルであり，これを用いたパーミュテーションフリーかつ高精度な音源分離手法であるMVAE法，およびその計算コストを大幅に削減したFastMVAE法が提案されている．MVAE法とFastMVAE法は教師あり音源分離法に位置づけられるが，本稿では，十分なデータでネットワークを学習させることによりいずれの手法も任意話者に対する音源分離を既知話者の場合と同等の性能で行えることを示す．また，Product-of-Expertsに基づいて潜在空間変数の事前確率を考慮した推論アルゴリズムを提案する．話者依存及び任意話者の音源分離実験において提案法の高い分離性能を確認した．
抄録(英)	The multichannel variational autoencoder method (MVAE) is a recently proposed determined source separation method, which uses a conditional variational autoencoder (CVAE) to learn the spectrograms of source signals given a source-class ID as an auxiliary input. The trained decoder distribution can be used as a universal generative model capable of generating spectrograms of all the sources involved in the training samples. The decoder distribution can then be exploited to estimate the spectrograms of sources in a mixture. The MVAE methods, including the original MVAE method and its fast version called FastMVAE, were shown to significantly outperform conventional methods under speaker-dependent conditions, where the target speakers are seen in the training dataset. In this paper, we investigate the performances of the two MVAE methods under speaker-independent conditions. To further enhance the ability of FastMVAE to estimate the latent space variables for unknown speakers, we propose a prior-aware inference algorithm based on the concept of product-of-experts. Experimental results revealed that the MVAE methods could perform well even under speaker-independent conditions.
キーワード(和)	多チャンネル音源分離 / 話者分離 / 多チャネル変分自己符号化器（MVAE）法 / FastMVAE法 / 条件付き変分自己符号化器 (CVAE)
キーワード(英)	Multichannel source separation / determined source separation / multichannel variational autoencoder (MVAE), / FastMVAE / conditional variational autoencoder (CVAE)
資料番号	EA2019-77
発行日	2019-12-05 (EA)

研究会情報
研究会	EA
開催期間	2019/12/12(から2日開催)
開催地（和）	九州工業大学戸畑キャンパス（北九州市）
開催地（英）	Kyushu Inst. Tech.
テーマ（和）	応用／電気音響，一般
テーマ（英）	Engineering/Electro Acoustics, and Related Topics
委員長氏名（和）	古家賢一(大分大)
委員長氏名（英）	Kenichi Furuya(Oita Univ.)
副委員長氏名（和）	島内末廣(金沢工大) / 武岡成人(静岡理工科大)
副委員長氏名（英）	Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.)
幹事氏名（和）	松井健太郎(NHK) / 小山翔一(東大)
幹事氏名（英）	Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo)
幹事補佐氏名（和）	井本桂右(立命館大) / 森川大輔(富山県立大)
幹事補佐氏名（英）	Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics
本文の言語	JPN
タイトル（和）	多チャンネル変分自己符号化器法による任意話者の音源分離
サブタイトル（和）
タイトル（英）	Speaker-independent source separation with multichannel variational autoencoder
サブタイトル（和）
キーワード(1)（和/英）	多チャンネル音源分離 / Multichannel source separation
キーワード(2)（和/英）	話者分離 / determined source separation
キーワード(3)（和/英）	多チャネル変分自己符号化器（MVAE）法 / multichannel variational autoencoder (MVAE),
キーワード(4)（和/英）	FastMVAE法 / FastMVAE
キーワード(5)（和/英）	条件付き変分自己符号化器 (CVAE) / conditional variational autoencoder (CVAE)
第 1 著者氏名（和/英）	李莉 / Li Li
第 1 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. Tsukuba)
第 2 著者氏名（和/英）	亀岡弘和 / Hirokazu Kameoka
第 2 著者所属（和/英）	NTT(略称：NTT) NTT(略称：NTT)
第 3 著者氏名（和/英）	井上翔太 / Shota Inoue
第 3 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. Tsukuba)
第 4 著者氏名（和/英）	牧野昭二 / Shoji Makino
第 4 著者所属（和/英）	筑波大学(略称：筑波大) University of Tsukuba(略称：Univ. Tsukuba)
発表年月日	2019-12-13
資料番号	EA2019-77
巻番号（vol）	vol.119
号番号（no）	EA-334
ページ範囲	pp.79-84(EA),
ページ数	6
発行日	2019-12-05 (EA)