講演名 2010-05-26
ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
植村 祐二, 森勢 将雅, 西浦 敬信,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,音声認識技術の飛躍的な発達に伴い,音声認識を活用した音声情報案内システム等が利用されるようになりつつある.しかし,騒音環境下での音声認識性能は,十分なSNRが確保できないことや,ロンバード効果と呼ばれる発話変形により低下するという問題がある.ロンバード効果とは,十分な聴覚フィードバックが確保できないときに生じ,基本周波数やフォルマント周波数等,音声認識に用いる特徴量に変化が生じる現象を示す.このロンバード効果により,騒音環境下での音声認識性能が静環境下での音声認識性能に比べ著しく低下するという問題がある.そのため,騒音環境下における音声認識性能の改善には,ロンバード効果の抑圧が必要となる.しかし,ロンバード効果の抑圧には大量のロンバード音声と平常音声が必要となるが,データが不足しているのが現状である.そこでまず,ロンバード効果を含むロンバード音声コーパスを構築した.構築したコーパスから,ロンバード効果による特徴の変化を詳細に分析し,ロンバード音声と平常音声の識別実験を実施した.識別実験は主観評価とマハラノビス距離による客観評価にて行った.その結果,主観,客観評価ともに平均80%を超える識別率が確認できた.次いで,分析したロンバード音声の特徴をリサンプリング処理を施し平常音声の特徴に変換することで,ロンバード音声の音声認識性能の改善を試みた.その結果,ロンバード音声の特徴を平常音声の特徴に変換することによって,女声約10%,男声約4%の音声認識性能の改善が確認できた.
抄録(英) The automatic speech recognition (ASR) under noisy environments is focused as one of the challenging topics. Especially, the talking-speech under noisy environment much distorts compared with neutral talking-speech under quiet one. This distortion is called Lombard effects, and ASR performance degrades by them. They should strongly occur, subject to no auditory feedback for speaker. In conventional research, their features tend to be ascent of power, ascent of fundamental frequency (F0), flat of spectral envelope and higher-frequency shift of the first order formant frequency (F1) and the second order formant frequency (F2). The ASR performance without any especially operations degrades by affecting such features. In order to analyze Lombard features, we recorded Lombard speech and constracted Lombard speech corpus. We discriminate between neutral speech and Lombard speech used by analyzed features. We conducted subjective evaluation and objective evaluation. As a result, we confirmed discrimination rate over 80 % both evaluations. In this paper, we propose the new approach based on the voice conversion towards neutral speech from Lombard speech. We carried out evaluation experiments. As a result of experiments, we confirmed the ASR performance increases to 10 % for female speech and 4 % for male one with proposed method.
キーワード(和) ロンバード効果 / 音声認識技術 / 認識性能 / ロンバード特徴量
キーワード(英) Lombard effects / ASR / recognition performance / Lombard features
資料番号 EA2010-1,SIP2010-1,SP2010-1
発行日

研究会情報
研究会 SIP
開催期間 2010/5/19(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Signal Processing (SIP)
本文の言語 JPN
タイトル(和) ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
サブタイトル(和)
タイトル(英) Improvement of speech recognition performance based on the conversion of Lombard features
サブタイトル(和)
キーワード(1)(和/英) ロンバード効果 / Lombard effects
キーワード(2)(和/英) 音声認識技術 / ASR
キーワード(3)(和/英) 認識性能 / recognition performance
キーワード(4)(和/英) ロンバード特徴量 / Lombard features
第 1 著者 氏名(和/英) 植村 祐二 / Yuji UEMURA
第 1 著者 所属(和/英) 立命館大学大学院理工学研究科
Graduate School of Science and Engineering, Ritsumeikan University
第 2 著者 氏名(和/英) 森勢 将雅 / Masanori MORISE
第 2 著者 所属(和/英) 立命館大学情報理工学部
College of Information Science and Engineering, Ritsumeikan University
第 3 著者 氏名(和/英) 西浦 敬信 / Takanobu NISHIURA
第 3 著者 所属(和/英) 立命館大学情報理工学部
College of Information Science and Engineering, Ritsumeikan University
発表年月日 2010-05-26
資料番号 EA2010-1,SIP2010-1,SP2010-1
巻番号(vol) vol.110
号番号(no) 55
ページ範囲 pp.-
ページ数 6
発行日