講演名 2012-05-24
経験的モード分解と変調スペクトル分析を用いた音声区間検出の耐性向上に関する検討(一般,音声・音響信号処理,音声及び一般)
金井 康昭, 鵜木 祐史,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声区間検出(VAD)は,観測信号の音声/非音声区間を検出する技術である.しかし,現在のVAD技術には,目的音声以外に背景雑音や非音声信号が混在する環境では,検出精度が著しく低下するという重大な問題がある.これまでに著者らは,この問題を解決するため,観測信号を経験的モード分解により固有モード関数(IMF)に分解し,その後,非定常成分のIMFから再合成した信号に対して変調スペクトル分析を行うVAD法の提案を行った(提案法A).提案法Aは背景雑音や非音声信号の存在する環境で,従来法より優れた精度で音声区間を検出できたが,誤受理率や誤棄却率を完全には無くせなかった.本論文では,提案法Aの耐性を向上させる手段を検討した.その結果,非定常なIMFを再合成せず,各IMFから音声区間を検出する手法を提案する(提案法B).評価の結果,非定常な背景雑音がある環境で,提案法Bは提案法Aより正確かつ信号の種類に検出精度の左右されない音声区間検出を行うことができ,耐性が向上していることを確認できた.
抄録(英) Voice activity detection (VAD) is used to detect speech/non-speech periods in observed signals. However, current VAD technique has a serious problem in that the accuracy of detection of speech periods drastically reduces if it is used for noisy speech and/or for mixtures of speech/non-speech. We proposed a robust VAD using empirical mode decomposition (EMD) and modulation spectrum analysis (MSA) to resolve these problems (method A). EMD is used to decompose the observed signals into intrinsic mode functions (IMFs). Then, speech/non-speech periods are determined from resynthesize non-stationary IMFs by using MSA. Method A detected speech periods more correctly than conventional method. However, False detection was not able to be lost completely. This paper examined the techniques that raise robustness of method A. We proposed VAD that is detected from each IMFs by MSA(method B). As a result of evaluation, method B was able to do VAD which was more exact and stabilize (detection accuracy is not influenced by an analysis signal) than the method A. It has checked that robustness was improving.
キーワード(和) 音声区間検出 / 経験的モード分解 / 変調スペクトル分析 / 誤受理率 / 誤棄却率
キーワード(英) voice activity detection / empirical mode decomposition / modulation spectrum analysis / false acceptance rate / false rejection rate
資料番号 EA2012-1,SIP2012-1,SP2012-1
発行日

研究会情報
研究会 EA
開催期間 2012/5/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Engineering Acoustics (EA)
本文の言語 JPN
タイトル(和) 経験的モード分解と変調スペクトル分析を用いた音声区間検出の耐性向上に関する検討(一般,音声・音響信号処理,音声及び一般)
サブタイトル(和)
タイトル(英) Development of robust voice activity detection using empirical mode decomposition and modulation spectrum analysis
サブタイトル(和)
キーワード(1)(和/英) 音声区間検出 / voice activity detection
キーワード(2)(和/英) 経験的モード分解 / empirical mode decomposition
キーワード(3)(和/英) 変調スペクトル分析 / modulation spectrum analysis
キーワード(4)(和/英) 誤受理率 / false acceptance rate
キーワード(5)(和/英) 誤棄却率 / false rejection rate
第 1 著者 氏名(和/英) 金井 康昭 / Yasuaki KANAI
第 1 著者 所属(和/英) 北陸先端科学技術大学院大学情報科学研究科
School of Information Science, Japan Advanced Institute of Science and Technology
第 2 著者 氏名(和/英) 鵜木 祐史 / Masashi UNOKI
第 2 著者 所属(和/英) 北陸先端科学技術大学院大学情報科学研究科
School of Information Science, Japan Advanced Institute of Science and Technology
発表年月日 2012-05-24
資料番号 EA2012-1,SIP2012-1,SP2012-1
巻番号(vol) vol.112
号番号(no) 47
ページ範囲 pp.-
ページ数 6
発行日