講演名 2012-05-24
変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
鵜木 祐史, ル シュガン, ペトリック リコ, 森田 翔太, 赤木 正人, ホフマン ルディガー,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では,はじめに,残響環境における代表的な音声区間検出(VAD)法の頑健性について検討した.ここでは,信号パワーに関する閾値処理,ならびにG.729B法とAMR法について比較検討した.その結果,これらの方法は,静音環境でうまく機能するが,残響環境ではその性能が著しく低下することがわかった.特に,残響の影響により,誤受理率(FAR)が誤棄却率(FRR)よりも著しく増加することがわかった.本論文では,これらの問題点を解決するために,パワーエンベロープ回復処理を利用したVAD法を提案した.この方法は,変調伝達関数に基づいた残響音声のパワーエンベロープをブラインド回復するものである.提案法は,前段にパワーエンベロープ回復法,後段に簡便なVAD法をとる2段処理で構成される.総合評価を行った結果,残響環境における頑健性に関して,提案法が代表的な方法よりも有効であり,音声・非音声区間を正確に検出できる(FARとFRRの減少)ことがわかった.
抄録(英) This paper reports comparative evaluations of conventional voice activity detection (VAD) methods in reverberant environments. Both conventional (thresholding) and standard (G.729 and AMR) methods are discussed. In general, these methods work well under clean conditions, but their performance is drastically affected by reverberation. Preliminary comparative evaluations showed that the false acceptance rate (FAR) is significantly increased due to the false rejection rate (FRR) being moderately increased by reverberation. We therefore developed a method using MTF-based power envelope restoration to improve the robustness of VAD in reverberant environments. This restoration method can blindly restore the power envelope of reverberant speech based on the MTF concept. The proposed method consists of an MTF-based restoration method as the front end and a conventional VAD method as the final decision. Experimental results demonstrated that the proposed method is superior to conventional methods with regard to robustness and providing accurate VAD (reducing both FAR and FRR) in reverberant environments.
キーワード(和) 音声区間検出 / 残響 / 変調伝達関数 / パワーエンベロープ回復
キーワード(英) voice activity detection / reverberation / modulation transfer function / power envelope restoration
資料番号 EA2012-2,SIP2012-2,SP2012-2
発行日

研究会情報
研究会 EA
開催期間 2012/5/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Engineering Acoustics (EA)
本文の言語 JPN
タイトル(和) 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
サブタイトル(和)
タイトル(英) Voice activity detection in MTF-based power envelope restoration
サブタイトル(和)
キーワード(1)(和/英) 音声区間検出 / voice activity detection
キーワード(2)(和/英) 残響 / reverberation
キーワード(3)(和/英) 変調伝達関数 / modulation transfer function
キーワード(4)(和/英) パワーエンベロープ回復 / power envelope restoration
第 1 著者 氏名(和/英) 鵜木 祐史 / Masashi UNOKI
第 1 著者 所属(和/英) 北陸先端科学技術大学院大学情報科学研究科
School of Information Science, JAIST
第 2 著者 氏名(和/英) ル シュガン / Xugang LU
第 2 著者 所属(和/英) 情報通信研究機構
NICT
第 3 著者 氏名(和/英) ペトリック リコ / Rico PETRICK
第 3 著者 所属(和/英) ドレスデン工科大学
Dresden University of Technology
第 4 著者 氏名(和/英) 森田 翔太 / Shota MORITA
第 4 著者 所属(和/英) 北陸先端科学技術大学院大学情報科学研究科
School of Information Science, JAIST
第 5 著者 氏名(和/英) 赤木 正人 / Masato AKAGI
第 5 著者 所属(和/英) 北陸先端科学技術大学院大学情報科学研究科
School of Information Science, JAIST
第 6 著者 氏名(和/英) ホフマン ルディガー / Ruediger HOFFMANN
第 6 著者 所属(和/英) ドレスデン工科大学
Dresden University of Technology
発表年月日 2012-05-24
資料番号 EA2012-2,SIP2012-2,SP2012-2
巻番号(vol) vol.112
号番号(no) 47
ページ範囲 pp.-
ページ数 6
発行日