講演抄録/キーワード |
講演名 |
2014-03-14 10:45
距離画像を用いたマルチモーダル音声認識 ○鵜飼直弥・田村哲嗣・速水 悟(岐阜大) PRMU2013-198 |
抄録 |
(和) |
本稿では,マルチモーダル音声認識の新モダリティとして距離画像を提案する.特徴量として固有口を利用し,HMM とマルチストリームHMM を用いて,距離画像単体での読唇実験と,音声情報と統合しマルチモーダル音声認識実験を行った.その結果として,距離画像による認識性能とマルチモーダル音声認識実験による雑音環境下での認識率改善を確認することができ,距離画像の有効性が見られた. |
(英) |
This paper presents a novel framework which uses depth information of human face and mouth movements as yet another modality for audio-visual speech recognition. We propose features of "eigenlip" by principal component analysis of depth maps in order to make them more robust for the sensor noise. We conducted experiments of digit speech recognition by incorporating audio information with depth maps of facial 3D shape in the multi-stream HMM (hidden Markov model). By comparing recognition of only depth with audio-depth information, we show improvement of accuracy in noisy environment. |
キーワード |
(和) |
マルチモーダル音声認識 / 距離画像 / Kinect / 固有口 / / / / |
(英) |
Audio-visual speech recognition / Depth image / Kinect / Eigenlip / / / / |
文献情報 |
信学技報, vol. 113, no. 493, PRMU2013-198, pp. 179-184, 2014年3月. |
資料番号 |
PRMU2013-198 |
発行日 |
2014-03-06 (PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2013-198 |