講演抄録/キーワード |
講演名 |
2012-12-20 16:25
高精度なマルチモーダル音声認識の実現に向けた取り組み ○田村哲嗣・沈 鵬・奥田博也・鵜飼直弥・河崎卓也・世古拓海・速水 悟(岐阜大) SP2012-88 |
抄録 |
(和) |
本稿では,音声と口唇動画像を用いるマルチモーダル音声認識に関して,高精度・リアルタイムに駆動する手法の実現に向けた取り組みについて述べる.はじめに,画像特徴量抽出やマルチモーダル音声区間検出など,基本要素の技術的概要と現状について解説し,その技術課題を議論する.あわせて,これまでの我々の取り組みについて述べる.これらを基に,高い認識精度をもつリアルタイム・マルチモーダル音声認識のための高速化手法の検討を行い,実際にマルチモーダル音声認識システムを作成した.そこで構築したシステムについて技術的詳細を報告し,続いて考察および今後の展開について論述する. |
(英) |
Regarding Multi-Modal Automatic Speech Recognition (MMASR) which uses acoustic and lip/mouth information, this paper describes recent efforts for high-performance real-time MMASR. At first, technical overviews as well as past works for fundamental technologies in MMASR, e.g. visual feature extraction and multi-modal voice activity detection, are introduced in order to discuss their technical issues. Our related works are also summarized. According to the discussion, we investigate speed-up methods for high-performance real-time MMASR, and build an MMASR system using the methods. Details of our system are then reported, and discussion as well as future works are finally described. |
キーワード |
(和) |
マルチモーダル音声認識 / リアルタイム / マルチモーダル音声区間検出 / / / / / |
(英) |
Multi-modal speech recognition / real-time / multi-modal voice activity detection / / / / / |
文献情報 |
信学技報, vol. 112, no. 369, SP2012-88, pp. 41-46, 2012年12月. |
資料番号 |
SP2012-88 |
発行日 |
2012-12-13 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2012-88 |