講演名 2015-12-02
Reverberation-aware Denoising autoencoderによる遠隔発話音声認識
上田 雄磨(静岡大), 王 龍標(長岡技科大), 甲斐 充彦(静岡大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 遠隔発話環境下における音声認識では,雑音や残響への対処が必要不可欠であり,これらの影響を音声特徴量のレベルで除去する方法として,Denoising autoencoder(DAE)が効果的であることが知られている.しかし,従来DAEの性能は学習データに含まれる環境や量に依存するため,学習データとテストデータの環境のミスマッチに弱いという問題点がある.本研究では,DAEの学習を行う際に残響下音声のみを入力に与えるだけでなく,Multi Step Linear Prediction(MSLP)で推定した残響を追加的に与え残響の影響を明示的に考慮した残響除去を実現することで,従来DAEの問題点の解消を目指す.``REVERB challenge''(残響下音声の音声強調と音声認識ベンチマーク)が提供する音声を用いて提案手法の評価を行った結果,従来のDAEの方法と比べて単語誤り率(WER)は人工環境において7.12%から6.41%,実環境において30.56%から26.83%までの削減を達成した.
抄録(英) In the distant-talking speech recognition, it is essential to deal with the noise and reverberation.Denoising autoencoder (DAE) is known to be effective as a method for removing these influences.However, conventional DAE is easily affected by mismatch between training data and test data because the performance of DAE depend on the environment or amount of data included in the training set.In this study, we also use reverberation features estimated by Multi Step Linear Prediction (MSLP) as additional to input of DAE.By explicitly considering the effects of reverberation, we solve the problems in conventional DAE-based system.We evaluate the proposed method by using the ``REVERB challenge'' (Reverberant Voice Enhancement and Recognition Benchmark) dataset.For SimData, the average Word Error Rate (WER) was reduced from 7.12% to 6.41%.For RealData, the average WER was reduced from 30.56% to 26.83%.
キーワード(和) 音声認識 / 残響除去 / denoising autoencoder / 遠隔発話音声
キーワード(英) speech recognition / dereverberation / denoising autoencoder / distant-talking speech
資料番号 SP2015-77
発行日 2015-11-25 (SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2015/12/2(から3日開催)
開催地(和) 名古屋工業大学
開催地(英) Nagoya Inst of Tech.
テーマ(和) 第2回自然言語処理シンポジウム & 第17回音声言語シンポジウム
テーマ(英) The Second Natural Language Processing Symposium & The 17th Spoken Language Symposium
委員長氏名(和) 竹内 孔一(岡山大) / 乾 健太郎(東北大) / 間野 一則(芝浦工大) / 篠田 浩一(東工大)
委員長氏名(英) Koichi Takeuchi(Okayama Univ.) / Kentaro Inui(Tohoku Univ.) / Kazunori Mano(Shibaura Inst. of Tech.) / Koichi Shinoda(東工大)
副委員長氏名(和) 金山 博(日本IBM) / 市瀬 眞(NTTドコモ) / / 北岡 教英(徳島大)
副委員長氏名(英) Hiroshi Kanayama(IBM) / Makoto Ichise(NTT DoCoMo) / / Norihide Kitaoka(Tokushima Univ.)
幹事氏名(和) 榊 剛史(東大/ホットリンク) / 渡辺 靖彦(龍谷大) / 荒瀬 由紀(大阪大) / 岡崎 直観(東北大) / 木村 俊也(ミクシィ) / 小町 守(首都大学東京) / 森 信介(京都大) / 岩野 公司(東京都市大) / 滝口 哲也(神戸大) / 李 晃伸(名工大) / 南條 浩輝(龍谷大) / 篠原 雄介(東芝)
幹事氏名(英) Takeshi Sakaki(Univ. of Tokyo/Hottolink) / Yasuhiko Watanabe(Ryukoku Univ.) / Yuki Arase(Osaka Univ.) / Naoaki Okazaki(Tohoku Univ.) / Toshiya Kimura(Mixi Co. Ltd.) / Mamoru Komachi(Tokyo Met. Univ.) / Shinsuke Mori(Kyoto Univ.) / Koji Iwano(Tokyo City Univ.) / Tetsuya Takiguchi(Kobe Univ.) / Akinobu Lee(名工大) / Hiroaki Nanjo(龍谷大) / 篠原 雄介(東芝)
幹事補佐氏名(和) 嶋田 和孝(九工大) / 東中 竜一郎(NTT) / / 能勢 隆(東北大) / 浅見 太一(NTT)
幹事補佐氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.) / Ryuichiro Higashinaka(NTT) / / Takashi Nose(Tohoku Univ.) / Taichi Asami(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) Reverberation-aware Denoising autoencoderによる遠隔発話音声認識
サブタイトル(和)
タイトル(英) Distant-talking speech recognition by reverberation-aware denoising autoencoder
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) 残響除去 / dereverberation
キーワード(3)(和/英) denoising autoencoder / denoising autoencoder
キーワード(4)(和/英) 遠隔発話音声 / distant-talking speech
第 1 著者 氏名(和/英) 上田 雄磨 / Yuma Ueda
第 1 著者 所属(和/英) 静岡大学(略称:静岡大)
Shizuoka University(略称:Shizuoka Univ.)
第 2 著者 氏名(和/英) 王 龍標 / Longbiao Wang
第 2 著者 所属(和/英) 長岡技術科学大学(略称:長岡技科大)
Nagaoka University of Technology(略称:Nagaoka Univ.)
第 3 著者 氏名(和/英) 甲斐 充彦 / Atsuhiko Kai
第 3 著者 所属(和/英) 静岡大学(略称:静岡大)
Shizuoka University(略称:Shizuoka Univ.)
発表年月日 2015-12-02
資料番号 SP2015-77
巻番号(vol) vol.115
号番号(no) SP-346
ページ範囲 pp.55-60(SP),
ページ数 6
発行日 2015-11-25 (SP)