音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)

酒井 啓行; ツィンツァレク トビアス; 川波 弘道; 猿渡 洋; 鹿野 清宏; 李 晃伸

講演名	2007/12/13 音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム) 酒井啓行, ツィンツァレクトビアス, 川波弘道, 猿渡洋, 鹿野清宏, 李晃伸,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	人と音声対話ロボットとの自然な対話を可能にするためにハンズフリーインターフェースの導入が求められている.ハンズフリー音声認識システムでは様々な背景雑音の混入や,ユーザの直接音のパワーが減衰するなど様々な理由で入力音声のSignal-to-Noise Ratio (SNR)が低下してしまう.そしてSNRの低下に伴いユーザの発話区間を特定する音声区間検出が困難となる,また雑音環境における有効な音声区間検出手法は確立されていない.本稿では,雑音環境下においても頑健にユーザの発話区間を検出する音響モデルと言語モデルに基づく認識による音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価を行う.従来のVAD手法として振幅パワー,統計モデル,GMMなどに基づく手法を挙げ,性能比較実験を行うことで提案手法の有効性を示す.
抄録(英)	Introduction of hands-free interface into speech recognition (SR) systems is expected for natural iteraction between humans and spoken dialogue robots. In hands-free SR system, Signal-to-Noise Ratio (SNR) of input signal becomes worse because of background noise in real-environment and other reasons. This will cause degradation in recognition performance when using conventional Voice Activity Detection (VAD). In this paper, we evaluate hands-free SR algorithm using decoding VAD based on acoustic and language models for robust VAD in noisy environment. We performed experiment for comparing proposed and conventional VAD method, for example, based on amplitude power, statistical model and GMM. And, we evaluate effectiveness of the proposed method.
キーワード(和)	音響モデルと言語モデルに基づく認識による音声区間検出 / ハンズフリー音声認識 / 実環境対話ロボット
キーワード(英)	Voice Activity Detection (VAD) by decoding based on Acoustic Model and Language Model / Hands-Free speech recognition / Real-environment spoken dialogue robot
資料番号	NLC2007-35,SP2007-98
発行日

研究会情報
研究会	SP
開催期間	2007/12/13(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Speech (SP)
本文の言語	JPN
タイトル（和）	音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)
サブタイトル（和）
タイトル（英）	Evaluation of Hands-free Speech Recognition Algorithm using Decoding Voice Activity Detection based on Acoustic and Language Models
サブタイトル（和）
キーワード(1)（和/英）	音響モデルと言語モデルに基づく認識による音声区間検出 / Voice Activity Detection (VAD) by decoding based on Acoustic Model and Language Model
キーワード(2)（和/英）	ハンズフリー音声認識 / Hands-Free speech recognition
キーワード(3)（和/英）	実環境対話ロボット / Real-environment spoken dialogue robot
第 1 著者氏名（和/英）	酒井啓行 / Hiroyuki SAKAI
第 1 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者氏名（和/英）	ツィンツァレクトビアス / Tobias CINCAREK
第 2 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者氏名（和/英）	川波弘道 / Hiromichi KAWANAMI
第 3 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 4 著者氏名（和/英）	猿渡洋 / Hiroshi SARUWATARI
第 4 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 5 著者氏名（和/英）	鹿野清宏 / Kiyohiro SHIKANO
第 5 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 6 著者氏名（和/英）	李晃伸 / Akinobu LEE
第 6 著者所属（和/英）	名古屋工業大学 Nagoya Institute of Technology
発表年月日	2007/12/13
資料番号	NLC2007-35,SP2007-98
巻番号（vol）	vol.107
号番号（no）	406
ページ範囲	pp.-
ページ数	6
発行日