講演名 2014-03-14
距離画像を用いたマルチモーダル音声認識(一般セッション,パターン認識・メディア理解における組み合わせと統合,文化の振興と教育)
鵜飼 直弥, 田村 哲嗣, 速水 悟,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,マルチモーダル音声認識の新モダリティとして距離画像を提案する.特徴量として固有口を利用し,HMMとマルチストリームHMMを用いて,距離画像単体での読唇実験と,音声情報と統合したマルチモーダル音声認識実験を行った.その結果として,距離画像による認識性能とマルチモーダル音声認識実験による雑音環境下での認識率改善を確認することができ,距離画像の有効性が見られた.
抄録(英) This paper presents a novel framework which uses depth information of human face and mouth movements as yet another modality for audio-visual speech recognition. We propose features of "eigenlip" by principal component analysis of depth maps in order to make them more robust for the sensor noise. We conducted experiments of digit speech recognition by incorporating audio information with depth maps of facial 3D shape in the multi-stream HMM (hidden Markov model). By comparing recognition of only depth with audio-depth information, we show improvement of accuracy in noisy environment.
キーワード(和) マルチモーダル音声認識 / 距離画像 / Kinect / 固有口
キーワード(英) Audio-visual speech recognition / Depth image / Kinect / Eigenlip
資料番号 PRMU2013-198
発行日

研究会情報
研究会 PRMU
開催期間 2014/3/6(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Pattern Recognition and Media Understanding (PRMU)
本文の言語 JPN
タイトル(和) 距離画像を用いたマルチモーダル音声認識(一般セッション,パターン認識・メディア理解における組み合わせと統合,文化の振興と教育)
サブタイトル(和)
タイトル(英) A study on multi-modal speech recognition using depth images
サブタイトル(和)
キーワード(1)(和/英) マルチモーダル音声認識 / Audio-visual speech recognition
キーワード(2)(和/英) 距離画像 / Depth image
キーワード(3)(和/英) Kinect / Kinect
キーワード(4)(和/英) 固有口 / Eigenlip
第 1 著者 氏名(和/英) 鵜飼 直弥 / Naoya UKAI
第 1 著者 所属(和/英) 岐阜大学大学院工学研究科応用情報学専攻
Graduate school of Engineering, Gifu University
第 2 著者 氏名(和/英) 田村 哲嗣 / Satoshi TAMURA
第 2 著者 所属(和/英) 岐阜大学工学部電気電子・情報工学科
Faculty of Engineering, Gifu University
第 3 著者 氏名(和/英) 速水 悟 / Satoru HAYAMIZU
第 3 著者 所属(和/英) 岐阜大学工学部電気電子・情報工学科
Faculty of Engineering, Gifu University
発表年月日 2014-03-14
資料番号 PRMU2013-198
巻番号(vol) vol.113
号番号(no) 493
ページ範囲 pp.-
ページ数 6
発行日