講演名 2007-05-31
音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
梅野 恵, 船田 哲男, 野村 英之,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識のための特徴量として,著者らは以前に周波数軸方向のスペクトル傾斜を3値化した値に基づく特徴量FTTSS (Fourier Transfbrm of Temalized Spectral Slope)を提案した.その特徴量の耐雑音性について特徴量MFCCとの比較を行い,単語音声認識においてその有用性を実験的に確認した.一般的にHMMを用いた音声認識においては,HMMが原理的に区分的に定常な信号を表現する能力しか特たないため,特徴量の時間軸上の変動を加えることで性能の向上を図ることができる.特徴量FTTSSについても,それを抽出した後で時間差分ΔFTTSSをとって認識に利用し,認識率の向上を図った.一方,聴覚では末梢の段階(蝸牛管)で周波数分析を行っていることを考慮すると,時間変化を表す特徴量として,特定の中心周波数点でのパワースペクトルの時間追分を利用することが自然とも考えられる。そこで本研究ではΔFTTSSに代わる特徴量として,短時間パワースペクトルの時間軸方向の傾斜に基づく特微量を定義する.頃斜値そのものは変動性が大きいので,3値化を介した特徴量FTTTS (Fourier Transform of Ternalized Temporal Slope)を提察し,雑音環境下における単語認識でΔFTTSSとの比較によりその効果を実験的に検証する.
抄録(英) In previous paper, we proposed a feature FTTSS (Fourier Transform of Ternarized Spectral Slope) based on power spectrum derivatives with regard to frequency to develop a robust word recognition system under noisy environments, and we confirmed noise robustness of the proposed feature compared with MFCC by applying it to word recognition with HMM. Generally, word recognition with HMM is improved by adding features that express temporal variations, such as AMFCC or ΔFTTSS, because HMM can deal with only piecewise stationary signals. Actually, we have examined effectiveness of using ΔFTTSS in word recognition. On the other hand, the cochlear nerve in auditory gets some information by frequency analysis of speech signals. In auditory cortex, there are neurons expressing that peak frequencies of spectrum go up or down along time domain. Therefore it is supposed that features showing raw temporal variations of power spectrum along frequency are effective in speech recognition, and ternary conversion of features decrease deteriorations by noise corruption. In this research, we propose a new feature FTTTS (Fourier Transform of Ternarized Temporal Slope) instead of ΔFTTSS. The FTTTS is defined by Fourier Transform along frequency of smoothed ternarized temporal variations. As a result, we have confirmed noise robustness of the proposed feature FTTTS as compared with ΔFTTSS or the conventional feature MFCC+ΔMFCC by applying them to word recognition with HMM.
キーワード(和) FTTSS / FTTTS / 3直化 / ガンマトンフィルタ
キーワード(英) FTTSS / FTTTS / ternarization / gammatonefilter
資料番号 SP2007-2
発行日

研究会情報
研究会 SP
開催期間 2007/5/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
サブタイトル(和)
タイトル(英) A consideration on extracting temporal feature of spectrum for speech recognition
サブタイトル(和)
キーワード(1)(和/英) FTTSS / FTTSS
キーワード(2)(和/英) FTTTS / FTTTS
キーワード(3)(和/英) 3直化 / ternarization
キーワード(4)(和/英) ガンマトンフィルタ / gammatonefilter
第 1 著者 氏名(和/英) 梅野 恵 / Megumi UMENO
第 1 著者 所属(和/英) 金沢大学大学院自然斜学研究斜
Graduate School of Natural and Technology, Kanazawa University
第 2 著者 氏名(和/英) 船田 哲男 / Tetsuo FUNADA
第 2 著者 所属(和/英) /
/
第 3 著者 氏名(和/英) 野村 英之 / Hideyuki NOMURA
第 3 著者 所属(和/英)
発表年月日 2007-05-31
資料番号 SP2007-2
巻番号(vol) vol.107
号番号(no) 77
ページ範囲 pp.-
ページ数 6
発行日