講演名 2022-06-17
[ポスター講演]局所的な真偽判定を用いた敵対的学習に基づく教師なし音声処理歪み補正
荻野 里久(早大), 西城 耕平(早大), 藤枝 大(OKI), 小川 哲司(早大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,収音したいエリアに含まれる音源を強調するエリア収音の後処理として用いる歪み補正器を,教師無し学習する方式について検討した. エリア収音は非線形なアプローチに基づく音声強調処理である. 目的音と同方向に妨害音が配置されているなど, 線形のビームフォーミングに基づく手法では目的音の強調が困難な場面で用いられるが,人工的な処理歪みがスペクトル上で局所的に生じるという課題を持つ.先行研究では,観測信号と正解信号の対(ペアデータ)を用いた教師あり学習により, 処理歪みを低減するネットワークの学習が行われた.しかし,実環境において正解信号を大量に得ることは現実的でなく,正解信号なしにネットワークを学習できることが望ましい.そこで本研究では,教師なし敵対的生成ネットワーク(GAN)の枠組みを用い,人工的な歪みを補正するネットワークの構築を試みた.また,局所的に生じる処理歪みを効果的に補正するために,敵対的学習における識別器に真偽判定を局所的に行える枠組みを適用した.妨害音と同方向にある目的音を強調する実験において,エリア収音の出力信号で生じた歪みを提案方式で補正することの有効性を確認した.
抄録(英) We investigate the method for unsupervised learning of artifacts correction networks used for post-processing of Multi Beam-forming Area Sound Enhancement(MUBASE). MUBASE, a nonlinear speech enhancement technique, causes local artifacts in the time-frequency spectrogram.In previous studies, supervised learning with paired data was used to learn networks to correct for artifacts.However, it is unrealistic to obtain a large amount of pair data in a real environment.Therefore, in this study, we attempted to construct a network that corrects artifacts using an unsupervised GAN framework. To effectively correction for locally generated artifacts, we adapt the Discriminator, which focuses on the local information of the input. We confirm that the proposed method is effective in correcting localized artifacts.
キーワード(和) 敵対的生成ネットワーク / 深層ニューラルネットワーク / 教師なし音声強調 / 信号処理歪補正
キーワード(英) generative adversarial network / deep neural network / unsupervised / artifacts correction
資料番号 SP2022-13
発行日 2022-06-10 (SP)

研究会情報
研究会 SP / IPSJ-MUS / IPSJ-SLP
開催期間 2022/6/17(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 音学シンポジウム2022
テーマ(英)
委員長氏名(和) 戸田 智基(名大)
委員長氏名(英) Tomoki Toda(Nagoya Univ.)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和) 増村 亮(NTT) / 中鹿 亘(電通大)
幹事氏名(英) Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.)
幹事補佐氏名(和) 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事補佐氏名(英) Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Music and Computer / Special Interest Group on Spoken Language Processing
本文の言語 JPN-ONLY
タイトル(和) [ポスター講演]局所的な真偽判定を用いた敵対的学習に基づく教師なし音声処理歪み補正
サブタイトル(和)
タイトル(英)
サブタイトル(和)
キーワード(1)(和/英) 敵対的生成ネットワーク / generative adversarial network
キーワード(2)(和/英) 深層ニューラルネットワーク / deep neural network
キーワード(3)(和/英) 教師なし音声強調 / unsupervised
キーワード(4)(和/英) 信号処理歪補正 / artifacts correction
第 1 著者 氏名(和/英) 荻野 里久 / Riku Ogino
第 1 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
第 2 著者 氏名(和/英) 西城 耕平 / Saijo Kohei
第 2 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
第 3 著者 氏名(和/英) 藤枝 大 / Fujieda Masaru
第 3 著者 所属(和/英) 沖電気工業株式会社(略称:OKI)
OKI Electric Industry Corporation(略称:OKI)
第 4 著者 氏名(和/英) 小川 哲司 / Ogawa Tetsuji
第 4 著者 所属(和/英) 早稲田大学(略称:早大)
Waseda University(略称:Waseda Univ.)
発表年月日 2022-06-17
資料番号 SP2022-13
巻番号(vol) vol.122
号番号(no) SP-81
ページ範囲 pp.49-54(SP),
ページ数 6
発行日 2022-06-10 (SP)