講演名 | 2008-12-09 スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム) 西亀 健太, 和泉 洋介, 渡部 晋治, 西本 卓也, 小野 順貴, 嵯峨山 茂樹, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿ではスパース性に基づくブラインド音源分離をフロントエンドに用いた雑音残響下における2チャンネル入力音声認識を提案する.2チャンネルブラインド音源分離により観測音からターゲット音声が分離される.本稿で用いた音源分離手法ではEMアルゴリズムによって設計された時間周波数マスキングを行うことにより残響などの拡散性雑音下でも精度よく音源分離を行うものである.音源分離後に残った歪みや,新たに生じた歪みに関してはCepstral Mean Nomalizationによる抑圧を行う.提案手法に対し,複数妨害音および残響の存在下における連続数字音声認識タスクにおいて提案手法の有効性を確認し,特に残響下で比較手法より高い認識性能を実現した. |
抄録(英) | This paper discusses a two-channel input speech recognition using a sparsness-based blind source separation. The target speech is extracted from observed signals under diffusive noises (e.g. reverberation) by the source separation technique where a time-frequency mask is dynamically designed for speech separation using the EM algorithm. Cepstral Mean Normalization is exploited to reduce a remaining distortions or a newly introduced distortions in separated speech features. In a connected digit recognition task with multiple noise sources, the proposed method drastically improved the word accuracy in anechoic and reverberant environments. The proposed method achieved higher performance especially in a reverberant environment than conventional methods. |
キーワード(和) | スパース性 / 2チャンネルブラインド音源分離 / 残響 / 音声認識 |
キーワード(英) | sparsness / 2-channel blind source separation / reverberation / speech recognition |
資料番号 | NLC2008-24,SP2008-79 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2008/12/2(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | Two-channel input speech recognition using sparsness-based blind source separation |
サブタイトル(和) | |
キーワード(1)(和/英) | スパース性 / sparsness |
キーワード(2)(和/英) | 2チャンネルブラインド音源分離 / 2-channel blind source separation |
キーワード(3)(和/英) | 残響 / reverberation |
キーワード(4)(和/英) | 音声認識 / speech recognition |
第 1 著者 氏名(和/英) | 西亀 健太 / Kenta NISHIKI |
第 1 著者 所属(和/英) | 東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo |
第 2 著者 氏名(和/英) | 和泉 洋介 / Yousuke IZUMI |
第 2 著者 所属(和/英) | 東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo |
第 3 著者 氏名(和/英) | 渡部 晋治 / Shinji WATANABE |
第 3 著者 所属(和/英) | 日本電信電話(株)NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories |
第 4 著者 氏名(和/英) | 西本 卓也 / Takuya NISHIMOTO |
第 4 著者 所属(和/英) | 東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo |
第 5 著者 氏名(和/英) | 小野 順貴 / Nobutaka ONO |
第 5 著者 所属(和/英) | 東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo |
第 6 著者 氏名(和/英) | 嵯峨山 茂樹 / Shigeki SAGAYAMA |
第 6 著者 所属(和/英) | 東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo |
発表年月日 | 2008-12-09 |
資料番号 | NLC2008-24,SP2008-79 |
巻番号(vol) | vol.108 |
号番号(no) | 337 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |