講演名 2005/12/15
識別的特徴抽出に基づく音声区間検出の検討(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
山本 幸一, /, 河村 聡典,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では, 音声認識のための雑音ロバストな音声区間検出方式を提案している.提案手法は, 入力信号の短時間エネルギーおよび音声/非音声GMMを用いた尤度比の二つの基準を用いてフレーム単位の音声/非音声を判別する.このとき, 尤度比を計算するためのパラメータを学習する手法として, 識別的特徴抽出(DFE : Discriminative Feature Extraction)を導入している.識別的特徴抽出は, 特徴抽出器と識別器を統一された枠組みで識別的に最適化する特徴を持っており, 音声認識および話者認識などの分野でその効果を示している.フレーム単位の音声/非音声判別性能を評価した結果, 提案手法は短時間エネルギーを基準とした手法と比較して高い性能を示した.また, 提案手法を用いることにより, 音声の始終端検出精度および雑音環境における音声認識性能も改善された.
抄録(英) Accurate endpoint detection is important to improve the speech recognition capability. This paper proposes a novel endpoint detection method which combines energy-based and likelihood ratio-based voice activity detection (VAD) criteria, where the likelihood ratio is calculated with speech/non-speech Gaussian mixture models (GMMs). Moreover, the proposed method introduces the discriminative feature extraction method (DFE) in order to improve the speech/non-speech classification. The DFE is used in the training of parameters required for calculating the likelihood ratio. Our experimental evaluation showed that the proposed method reduces the recognition error rate compared to a conventional energy-based technique.
キーワード(和) 音声区間検出 / 識別的特徴抽出
キーワード(英) Endpoint detection / VAD / DFE / GMM
資料番号 NLC2005-93,SP2005-126
発行日

研究会情報
研究会 NLC
開催期間 2005/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 ENG
タイトル(和) 識別的特徴抽出に基づく音声区間検出の検討(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) A Study on Endpoint Detection for Speech Recognition Based on Discriminative Feature Extraction
サブタイトル(和)
キーワード(1)(和/英) 音声区間検出 / Endpoint detection
キーワード(2)(和/英) 識別的特徴抽出 / VAD
第 1 著者 氏名(和/英) 山本 幸一 / Koichi Yamamoto
第 1 著者 所属(和/英) 東芝研究開発センター
Multimedia Laboratory, Corporate R&D Center, Toshiba Corp.
第 2 著者 氏名(和/英) / / Jabloun Firas
第 2 著者 所属(和/英) /
Speech Technology Group, Cambridge Research Laboratory, Toshiba Research Europe Ltd.
第 3 著者 氏名(和/英) 河村 聡典 / Klaus Reinhard
第 3 著者 所属(和/英) 東芝研究開発センター
Speech Technology Group, Cambridge Research Laboratory, Toshiba Research Europe Ltd.
発表年月日 2005/12/15
資料番号 NLC2005-93,SP2005-126
巻番号(vol) vol.105
号番号(no) 494
ページ範囲 pp.-
ページ数 6
発行日