講演名 | 2010-01-22 マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル) 田村 哲嗣, 石川 雅人, 羽柴 隆志, 竹内 伸一, 速水 悟, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている.他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection, VAD)が有効である.我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している.本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する.マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像盾報の統合方法として初期統合および結果統合を比較検討した.音響雑音を加えた音声・画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した. |
抄録(英) | Audio-Visual Automatic Speech Recognition (AVASR) has been developed to enhance the robustness in noisy environments, using visual information in addition to acoustic features. Similarly, Audio-Visual Voice Activity Detection (AVVAD) has been investigated and used to increase the precision of VAD, since detecting presence of speech in noisy audio signals contributes ASR performance. In this paper, we propose a novel speech recognition method combining AVASR and AVVAD: combinations of model-based and model-free, and feature-fusion-based or decision-fusion-based methods. To evaluate the proposed schemes, recognition experiments were conducted using noisy audio-visual data. Then it is found that the proposed method using the model-free feature-fusion AVVAD method outperforms not only audio-only ASR but also conventional AVASR. |
キーワード(和) | マルチモーダル / 音声認識 / 音声区間検出 / 初期統合 / 結果統合 |
キーワード(英) | multimodal / speech recognition / voice activity detection / feature fusion / decision fusion |
資料番号 | CQ2009-105,PRMU2009-204,SP2009-145,MVE2009-127 |
発行日 |
研究会情報 | |
研究会 | PRMU |
---|---|
開催期間 | 2010/1/14(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Pattern Recognition and Media Understanding (PRMU) |
---|---|
本文の言語 | JPN |
タイトル(和) | マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル) |
サブタイトル(和) | |
タイトル(英) | Multimodal speech recognition using multimodal voice activity detection |
サブタイトル(和) | |
キーワード(1)(和/英) | マルチモーダル / multimodal |
キーワード(2)(和/英) | 音声認識 / speech recognition |
キーワード(3)(和/英) | 音声区間検出 / voice activity detection |
キーワード(4)(和/英) | 初期統合 / feature fusion |
キーワード(5)(和/英) | 結果統合 / decision fusion |
第 1 著者 氏名(和/英) | 田村 哲嗣 / Satoshi TAMURA |
第 1 著者 所属(和/英) | 岐阜大学工学部 Faculty of Engineering, Gifu University |
第 2 著者 氏名(和/英) | 石川 雅人 / Masato ISHIKAWA |
第 2 著者 所属(和/英) | 岐阜大学大学院工学研究科 Graduated School of Engineering, Gifu University |
第 3 著者 氏名(和/英) | 羽柴 隆志 / Takashi HASHIBA |
第 3 著者 所属(和/英) | 岐阜大学大学院工学研究科 Graduated School of Engineering, Gifu University |
第 4 著者 氏名(和/英) | 竹内 伸一 / Shin'ichi TAKEUCHI |
第 4 著者 所属(和/英) | 岐阜大学バーチャルシステムラボラトリー Virtual System Laboratory, Gifu University |
第 5 著者 氏名(和/英) | 速水 悟 / Satoru HAYAMIZU |
第 5 著者 所属(和/英) | 岐阜大学工学部 Faculty of Engineering, Gifu University |
発表年月日 | 2010-01-22 |
資料番号 | CQ2009-105,PRMU2009-204,SP2009-145,MVE2009-127 |
巻番号(vol) | vol.109 |
号番号(no) | 374 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |