講演名 2004/5/20
発話位置依存ケプストラム平均正規化による遠隔発話の音声認識(認識・理解・対話)
王 龍標, 北岡 教英, 中川 聖一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 遠隔環境において,伝送歪みは音声認識の性能を大きく劣化させる。本稿では発話位置依存ケプストラム平均正規化(Cepstral Mean Normalization:CMN)による頑健な音声認識方法を提案する。まず,部屋をいくつかの区域に分割し,その中心位置からマイクロホンまでの伝達特性を各位置で再生されたスピーカーの音声を用いて事前に計測しておく。音声認識時には,システムはマイクロホンペア間の音声の到着時間差(Time Delay Of Arrival:TDOA)に基づいて三次元の話者位置を推定する。本システムは,四つのマイクロホンをT字型に配置し,相互相関法を用いてマイクロホンペアの間の到着時間差を求める。そして,推定した発話位置によって事前に計測した伝達特性を選択し,CMNによって伝送歪みを補正して遠隔発話を認識する。さらに,提案手法では,人間からの発話のケプストラム平均とスピーカーからの発話のケプストラム平均のミスマッチも補正することにより実際の発話に対応する。実験により提案手法は,遠隔環境下で音声認識システムの性能を有効に改善することを示した。
抄録(英) In a distant environment, channel distortion may severely degrade speech recognition performance. In this paper, we propose a robust speech recognition method based on position dependent Cepstral Mean Normalization (CMN). At first the system measures the transmission characteristics according to speaker positions from some grid points in the room a priori using a loudspeaker. In the recognition stage, the system estimates speaker position in a 3-D space based on the time delay of arrival (TDOA) between distinct microphone pairs. In our system, four microphones were arranged in T-shaped on a plane and the time delay of arrival among the microphones was estimated by using cross-correlation. And then the system selects the transmission characteristics estimated a priori corresponding to the estimated position and applies a channel distortion compensation method (CMN) to the speech and recognizes it. In our proposed method, we also compensate the mismatch between the cepstral means of utterances spoken by human and those emitted from the loudspeaker. Experiment results showed that the proposed method improved the performance of speech recognition system in a distant environment efficiently and it could also compensate the mismatch between voices from human and loudspeaker well.
キーワード(和) 発話位置同定 / 位置依存ケプストラム平均正規化 / 遠隔発話音声認識
キーワード(英) speaker position estimation / position dependent CMN / distant speech recognition
資料番号 SP2004-14
発行日

研究会情報
研究会 SP
開催期間 2004/5/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 発話位置依存ケプストラム平均正規化による遠隔発話の音声認識(認識・理解・対話)
サブタイトル(和)
タイトル(英) Robust Distant Speech Recognition based on Position Dependent CMN
サブタイトル(和)
キーワード(1)(和/英) 発話位置同定 / speaker position estimation
キーワード(2)(和/英) 位置依存ケプストラム平均正規化 / position dependent CMN
キーワード(3)(和/英) 遠隔発話音声認識 / distant speech recognition
第 1 著者 氏名(和/英) 王 龍標 / Longbiao WANG
第 1 著者 所属(和/英) 豊橋技術科学大学情報工学系
Department of Information and computer Sciences. Toyohashi University of Technology
第 2 著者 氏名(和/英) 北岡 教英 / Norihide KITAOKA
第 2 著者 所属(和/英) 豊橋技術科学大学情報工学系
Department of Information and computer Sciences. Toyohashi University of Technology
第 3 著者 氏名(和/英) 中川 聖一 / Seiichi NAKAGAWA
第 3 著者 所属(和/英) 豊橋技術科学大学情報工学系
Department of Information and computer Sciences. Toyohashi University of Technology
発表年月日 2004/5/20
資料番号 SP2004-14
巻番号(vol) vol.104
号番号(no) 86
ページ範囲 pp.-
ページ数 6
発行日