講演名 2003/7/18
スペクトル傾斜に基づく特徴量の音素モデルによる単語音声認識への適用
大久保 智昭, 船田 哲男, 野村 英之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 雑音がある環境下で頑健な音声認識を行うための種々の方式が提案されているが,著者等はパワースペクトルの周波数傾斜を利用する方法(特徴量:PSD-mel-FTTSS)について検討してきた.PSD-mel-FTTSSは,パワースペクトルの周波数傾斜を3値化し,10msの等価時間で平滑化したものを10msごとに周波数方向でフーリエ変換し,その低次(1~12次)の係数の時系列で表現する特微量である.PSD-mel-FTTSSをHMMに基づく単語音声認識に適用し単語を単位とした音響モデルにおいて,特徴量MFCCと比較して,雑音耐性をもつことをすでに報告しているが,本稿では音素単位の音響モデルに適用しその効果について検討する.今回,この平滑化を低減フィルタで実現することにより,声帯波に基づく特微量の時間軸方向での変動を軽減する効果についても検討する.
抄録(英) For developping robust speech recognition system under noisy environments, a method for using the feature (PSD-mel-FTTSS) based on power spectral derivative have been proposed by authors. PSD-mel-FTTSS is calculated by the following three steps: (1) Conversion of power spectral derivative at each frequency to the ternary scale {+1,0, -1} for 64 channel frequencies in mel-scale, (2) Smoothing the ternary value in time domain at each frequency, (3) Fourier Transform of the smoothed values in frequency domain at every 10ms. The resultant time sequence of 1 to 12th order Fourier coefficients are referred to as PSD-mel-FTTSS. Robustness of the feature was shown for word speech recognition with using word-based HMM in previous paper. The purpose of the present paper is to apply the feature to phoneme-based HMM and to confirm the effectiveness of the feature to noisy speech. The operation for smoothing is executed by using low pass filter instead of simple averaging in order to reduce the temporal variation of the feature parameter caused by the glottal volume flow, and the effect of this operation is also examined in this paper.
キーワード(和) PSD-mel-FTTSS / スペクトル傾斜 / 閾値処理
キーワード(英) PSD-mel-FTTSS / Derivative of Spectrum / Threshold Operation
資料番号 SP2003-62
発行日

研究会情報
研究会 SP
開催期間 2003/7/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) スペクトル傾斜に基づく特徴量の音素モデルによる単語音声認識への適用
サブタイトル(和)
タイトル(英) Application of a Feature Based on Spectral Derivative to Word Speech Recognition by Using Phoneme HMM
サブタイトル(和)
キーワード(1)(和/英) PSD-mel-FTTSS / PSD-mel-FTTSS
キーワード(2)(和/英) スペクトル傾斜 / Derivative of Spectrum
キーワード(3)(和/英) 閾値処理 / Threshold Operation
第 1 著者 氏名(和/英) 大久保 智昭 / Tomoaki OOKUBO
第 1 著者 所属(和/英) 金沢大学工学部
Faculty of Engineering, Kanazawa University
第 2 著者 氏名(和/英) 船田 哲男 / Tetsuo FUNADA
第 2 著者 所属(和/英) 金沢大学工学部
Faculty of Engineering, Kanazawa University
第 3 著者 氏名(和/英) 野村 英之 / Hideyuki NOMURA
第 3 著者 所属(和/英) 金沢大学工学部
Faculty of Engineering, Kanazawa University
発表年月日 2003/7/18
資料番号 SP2003-62
巻番号(vol) vol.103
号番号(no) 220
ページ範囲 pp.-
ページ数 6
発行日