講演名 2002/4/19
雑音に頑健な基本周波数抽出法とその音声認識への適用
岩野 公司, 関高 浩, 古井 貞煕,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,雑音環境下での音声認識性能を,韻律情報を利用して向上させる手法を提案する.日本語では,イントネーションやアクセントは基本周波数(F_0)パターンとして表現され,句や単語の境界の推定に役立つ.筆者らは,種々の雑音に頑健なF_0抽出法として「ハフ変換によるF_0抽出法」を提案し,様々な雑音環境下での有効性を確認している.そこで本稿では,この手法から得られたF_0情報を韻律特徴量として,音韻・韻律特徴量を融合した音節HMMによる雑音に頑健な音声認識手法を提案する.男性話者11名による不特定話者実験として,4種類の雑音を様々なSNR条件で重畳した連続数字発声の認識を行ったところ,全ての条件で認識精度の向上が確認され,数字正解精度の改善は絶対値で最大約4.7%であった.雑音環境下での数字境界の推定精度が向上し,それによる認識精度の向上が得られたものと考えられる.
抄録(英) This paper proposes a noise robust speech recognition method using prosodic information. In Japanese, fundamental frequency (F_0) contour represents phrase intonation and word accent information. Consequently, it conveys information about prosodic phrase and word boundaries. We have developed a robust F_0 extraction method using Hough transform, which yields high extracting rate under various noise conditions. In this paper, we propose a noise robust speech recognition method using syllable HMMs which model both segmental spectral features and F_0 contour information. Speaker-independent experiments are conducted using connected digits uttered by 11 male speakers in various kinds of noise and SNR conditions. The recognition accuracy is improved in all noise conditions, and the best absolute improvement of digit accuracy is about 4.7%. This improvement is achieved due to the more precise digit boundary detection by the robust prosodic information.
キーワード(和) 雑音に頑健な音声認識 / 韻律情報 / 基本周波数パターン
キーワード(英) Noise robust speech recognition / Prosodic information / Fundamental frequency (F_0) contour
資料番号 SP2002-13
発行日

研究会情報
研究会 SP
開催期間 2002/4/19(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 雑音に頑健な基本周波数抽出法とその音声認識への適用
サブタイトル(和)
タイトル(英) Robust F_0 Extraction for Noisy Environments and Its Use for Speech Recognition
サブタイトル(和)
キーワード(1)(和/英) 雑音に頑健な音声認識 / Noise robust speech recognition
キーワード(2)(和/英) 韻律情報 / Prosodic information
キーワード(3)(和/英) 基本周波数パターン / Fundamental frequency (F_0) contour
第 1 著者 氏名(和/英) 岩野 公司 / Koji IWANO
第 1 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 関高 浩 / Takahiro SEKI
第 2 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 古井 貞煕 / Sadaoki FURUI
第 3 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2002/4/19
資料番号 SP2002-13
巻番号(vol) vol.102
号番号(no) 35
ページ範囲 pp.-
ページ数 6
発行日