マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)

田村 哲嗣; 石川 雅人; 羽柴 隆志; 竹内 伸一; 速水 悟

講演名	2010-01-22 マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル) 田村哲嗣, 石川雅人, 羽柴隆志, 竹内伸一, 速水悟,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている.他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection, VAD)が有効である.我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している.本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する.マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像盾報の統合方法として初期統合および結果統合を比較検討した.音響雑音を加えた音声・画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した.
抄録(英)	Audio-Visual Automatic Speech Recognition (AVASR) has been developed to enhance the robustness in noisy environments, using visual information in addition to acoustic features. Similarly, Audio-Visual Voice Activity Detection (AVVAD) has been investigated and used to increase the precision of VAD, since detecting presence of speech in noisy audio signals contributes ASR performance. In this paper, we propose a novel speech recognition method combining AVASR and AVVAD: combinations of model-based and model-free, and feature-fusion-based or decision-fusion-based methods. To evaluate the proposed schemes, recognition experiments were conducted using noisy audio-visual data. Then it is found that the proposed method using the model-free feature-fusion AVVAD method outperforms not only audio-only ASR but also conventional AVASR.
キーワード(和)	マルチモーダル / 音声認識 / 音声区間検出 / 初期統合 / 結果統合
キーワード(英)	multimodal / speech recognition / voice activity detection / feature fusion / decision fusion
資料番号	CQ2009-105,PRMU2009-204,SP2009-145,MVE2009-127
発行日

研究会情報
研究会	PRMU
開催期間	2010/1/14(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Pattern Recognition and Media Understanding (PRMU)
本文の言語	JPN
タイトル（和）	マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
サブタイトル（和）
タイトル（英）	Multimodal speech recognition using multimodal voice activity detection
サブタイトル（和）
キーワード(1)（和/英）	マルチモーダル / multimodal
キーワード(2)（和/英）	音声認識 / speech recognition
キーワード(3)（和/英）	音声区間検出 / voice activity detection
キーワード(4)（和/英）	初期統合 / feature fusion
キーワード(5)（和/英）	結果統合 / decision fusion
第 1 著者氏名（和/英）	田村哲嗣 / Satoshi TAMURA
第 1 著者所属（和/英）	岐阜大学工学部 Faculty of Engineering, Gifu University
第 2 著者氏名（和/英）	石川雅人 / Masato ISHIKAWA
第 2 著者所属（和/英）	岐阜大学大学院工学研究科 Graduated School of Engineering, Gifu University
第 3 著者氏名（和/英）	羽柴隆志 / Takashi HASHIBA
第 3 著者所属（和/英）	岐阜大学大学院工学研究科 Graduated School of Engineering, Gifu University
第 4 著者氏名（和/英）	竹内伸一 / Shin'ichi TAKEUCHI
第 4 著者所属（和/英）	岐阜大学バーチャルシステムラボラトリー Virtual System Laboratory, Gifu University
第 5 著者氏名（和/英）	速水悟 / Satoru HAYAMIZU
第 5 著者所属（和/英）	岐阜大学工学部 Faculty of Engineering, Gifu University
発表年月日	2010-01-22
資料番号	CQ2009-105,PRMU2009-204,SP2009-145,MVE2009-127
巻番号（vol）	vol.109
号番号（no）	374
ページ範囲	pp.-
ページ数	6
発行日