スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)

西亀 健太; 和泉 洋介; 渡部 晋治; 西本 卓也; 小野 順貴; 嵯峨山 茂樹

講演名	2008-12-09 スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム) 西亀健太, 和泉洋介, 渡部晋治, 西本卓也, 小野順貴, 嵯峨山茂樹,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿ではスパース性に基づくブラインド音源分離をフロントエンドに用いた雑音残響下における2チャンネル入力音声認識を提案する.2チャンネルブラインド音源分離により観測音からターゲット音声が分離される.本稿で用いた音源分離手法ではEMアルゴリズムによって設計された時間周波数マスキングを行うことにより残響などの拡散性雑音下でも精度よく音源分離を行うものである.音源分離後に残った歪みや,新たに生じた歪みに関してはCepstral Mean Nomalizationによる抑圧を行う.提案手法に対し,複数妨害音および残響の存在下における連続数字音声認識タスクにおいて提案手法の有効性を確認し,特に残響下で比較手法より高い認識性能を実現した.
抄録(英)	This paper discusses a two-channel input speech recognition using a sparsness-based blind source separation. The target speech is extracted from observed signals under diffusive noises (e.g. reverberation) by the source separation technique where a time-frequency mask is dynamically designed for speech separation using the EM algorithm. Cepstral Mean Normalization is exploited to reduce a remaining distortions or a newly introduced distortions in separated speech features. In a connected digit recognition task with multiple noise sources, the proposed method drastically improved the word accuracy in anechoic and reverberant environments. The proposed method achieved higher performance especially in a reverberant environment than conventional methods.
キーワード(和)	スパース性 / 2チャンネルブラインド音源分離 / 残響 / 音声認識
キーワード(英)	sparsness / 2-channel blind source separation / reverberation / speech recognition
資料番号	NLC2008-24,SP2008-79
発行日

研究会情報
研究会	NLC
開催期間	2008/12/2(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Natural Language Understanding and Models of Communication (NLC)
本文の言語	JPN
タイトル（和）	スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
サブタイトル（和）
タイトル（英）	Two-channel input speech recognition using sparsness-based blind source separation
サブタイトル（和）
キーワード(1)（和/英）	スパース性 / sparsness
キーワード(2)（和/英）	2チャンネルブラインド音源分離 / 2-channel blind source separation
キーワード(3)（和/英）	残響 / reverberation
キーワード(4)（和/英）	音声認識 / speech recognition
第 1 著者氏名（和/英）	西亀健太 / Kenta NISHIKI
第 1 著者所属（和/英）	東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo
第 2 著者氏名（和/英）	和泉洋介 / Yousuke IZUMI
第 2 著者所属（和/英）	東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo
第 3 著者氏名（和/英）	渡部晋治 / Shinji WATANABE
第 3 著者所属（和/英）	日本電信電話(株)NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories
第 4 著者氏名（和/英）	西本卓也 / Takuya NISHIMOTO
第 4 著者所属（和/英）	東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo
第 5 著者氏名（和/英）	小野順貴 / Nobutaka ONO
第 5 著者所属（和/英）	東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo
第 6 著者氏名（和/英）	嵯峨山茂樹 / Shigeki SAGAYAMA
第 6 著者所属（和/英）	東京大学情報理工学系研究科システム情報学専攻 Department of Information Physics and Computing, University of Tokyo
発表年月日	2008-12-09
資料番号	NLC2008-24,SP2008-79
巻番号（vol）	vol.108
号番号（no）	337
ページ範囲	pp.-
ページ数	6
発行日