音声強調性能改善に向けたデータ拡張手法導入の検討

春日 玲人; 杉浦 陽介; 安井 希子; 島村 徹也

講演名	2023-03-03 音声強調性能改善に向けたデータ拡張手法導入の検討春日玲人(埼玉大), 杉浦陽介(埼玉大), 安井希子(埼玉大), 島村徹也(埼玉大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	音声強調の分野は世界中で幅広く研究が行われており，多くの音声強調手法が提案されている．一方で，高性能な音声強調ネットワークの学習に耐えうる大規模音声データセットは依然として少なく，現状では汎用性の高いモデルを作成することは困難であり，過学習が発生しやすい状況となっている．この課題を解決するためには，少ないデータセットから大規模なデータセットを作成することを可能とし，モデルの汎化性能を高める手法が有効であると考えられる．そこで，本論文では，音声認識の分野において優れた性能を発揮しているSpecAugmentというデータ拡張手法を音声強調ネットワークに導入することで，データサイズの問題の解決を図り，音声強調性能の改善を試みる．
抄録(英)	The field of speech enhancement has been extensively researched worldwide, and many speech enhancement methods have been proposed. However, there are still few large-scale speech datasets that can be used to train high-performance speech enhancement networks, making it difficult to create general-purpose models and making overlearning more likely to occur. In order to solve this problem, a method that enables the creation of large data sets from small data sets and improves the generalization performance of models is considered effective. In this paper, we attempt to solve the data size problem and improve the performance of speech enhancement by introducing a data expansion method called SpecAugment, which has demonstrated excellent performance in the field of speech recognition, to speech enhancement networks.
キーワード(和)	音声強調 / 過学習 / 音声認識 / SpecAugment / データ拡張
キーワード(英)	speech enhancement / overlearning / speech recognition / SpecAugment / data augmentation
資料番号	SIS2022-52
発行日	2023-02-23 (SIS)

研究会情報
研究会	SIS
開催期間	2023/3/2(から2日開催)
開催地（和）	千葉工業大学
開催地（英）	Chiba Institute of Technology
テーマ（和）	ソフトコンピューティング,一般
テーマ（英）
委員長氏名（和）	木村誠聡(神奈川工科大)
委員長氏名（英）	Tomoaki Kimura(Kanagawa Inst. of Tech.)
副委員長氏名（和）	笹岡直人(鳥取大) / 田向権(九州工大)
副委員長氏名（英）	Naoto Sasaoka(Tottori Univ.) / Hakaru Tamukoh(Kyushu Inst. of Tech.)
幹事氏名（和）	坂東幸浩(NTT) / 吉田壮(関西大学)
幹事氏名（英）	Yukihiro Bandoh(NTT) / Soh Yoshida(Kansai Univ.)
幹事補佐氏名（和）	眞壁義明(神奈川工科大) / 杉浦陽介(埼玉大)
幹事補佐氏名（英）	Yoshiaki Makabe(Kanagawa Inst. of Tech.) / Yosuke Sugiura(Saitama Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Smart Info-Media Systems
本文の言語	JPN
タイトル（和）	音声強調性能改善に向けたデータ拡張手法導入の検討
サブタイトル（和）
タイトル（英）	Investigation of introducing data augmentation methods to improve speech enhancement performance
サブタイトル（和）
キーワード(1)（和/英）	音声強調 / speech enhancement
キーワード(2)（和/英）	過学習 / overlearning
キーワード(3)（和/英）	音声認識 / speech recognition
キーワード(4)（和/英）	SpecAugment / SpecAugment
キーワード(5)（和/英）	データ拡張 / data augmentation
第 1 著者氏名（和/英）	春日玲人 / Reito Kasuga
第 1 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 2 著者氏名（和/英）	杉浦陽介 / Yosuke Sugiura
第 2 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 3 著者氏名（和/英）	安井希子 / Nozomiko Yasui
第 3 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
第 4 著者氏名（和/英）	島村徹也 / Tetsuya Shimamura
第 4 著者所属（和/英）	埼玉大学(略称：埼玉大) Saitama University(略称：Saitama Univ.)
発表年月日	2023-03-03
資料番号	SIS2022-52
巻番号（vol）	vol.122
号番号（no）	SIS-410
ページ範囲	pp.64-69(SIS),
ページ数	6
発行日	2023-02-23 (SIS)