講演名 2003/12/11
周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
柘植 覚, 黒岩 眞吾, 原 一眞, 北 研二,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recognition)が近年提案された。DSRでは、携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、.2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近付くように周波数特性を正規化する。実際には、入力発声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はETSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。
抄録(英) In this paper, we focus on the influence on recognition performance of DSR with acoustic mismatches caused by input devices. DSR employs a vector quantization (VQ) algorithm for feature compression so that VQ distortion is increased by acoustic mismatches. Large VQ distortions increase the speech recognition error rate. To overcome the problem of VQ distortion, we have proposed the Bias Removal Method (BRM) in previous work. However, this method can not be applied in real-time. Therefore, in this paper, we propose a Real-time Bias Removal Method (RBRM). This method estimates the bias using past frames and multiple reference cepstrum vectors instead of one reference which is employed by ETSI advanced DSR front-end. Experimental results on a Japanese newspaper dictation task indicate that the proposed method showed improvement in the recognition performance for blind equalization in ETSI advanced DSR front-end under acoustic mismatched conditions.
キーワード(和) 分散音声認識 / ETSI DSRフロントエンド / 乗算性雑音 / 周波数特性正規化手法
キーワード(英) Distributed speech recognition / ETSI DSR front-end / Convolution noise / Frequency characteristic normalization method
資料番号 SP2003-115
発行日

研究会情報
研究会 SP
開催期間 2003/12/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
サブタイトル(和)
タイトル(英) Real-time Frequency Characteristic Normalization for ETSI DSR Front-end
サブタイトル(和)
キーワード(1)(和/英) 分散音声認識 / Distributed speech recognition
キーワード(2)(和/英) ETSI DSRフロントエンド / ETSI DSR front-end
キーワード(3)(和/英) 乗算性雑音 / Convolution noise
キーワード(4)(和/英) 周波数特性正規化手法 / Frequency characteristic normalization method
第 1 著者 氏名(和/英) 柘植 覚 / Satoru TSUGE
第 1 著者 所属(和/英) 徳島大学工学部
Faculty of Engineering, Tokushima University
第 2 著者 氏名(和/英) 黒岩 眞吾 / Shingo KUROIWA
第 2 著者 所属(和/英) 徳島大学工学部:ATR音声言語コミュニケーション研究所
Faculty of Engineering, Tokushima University:ATR-SLT
第 3 著者 氏名(和/英) 原 一眞 / Kazuma HARA
第 3 著者 所属(和/英) 徳島大学工学部
Faculty of Engineering, Tokushima University
第 4 著者 氏名(和/英) 北 研二 / Kenji KITA
第 4 著者 所属(和/英) 徳島大学高度情報化基盤センター
Center for Advanced Information Technology, Tokushima University
発表年月日 2003/12/11
資料番号 SP2003-115
巻番号(vol) vol.103
号番号(no) 519
ページ範囲 pp.-
ページ数 6
発行日