講演名 2022-03-04
草本 雅也(日本工大), 大田 健紘(日本工大),
抄録(和) 本研究は,複数のセンサを用いた無発声単語認識の有効性を明らかにすることを目的とする.無発声音声認識の一つの手段として可視光カメラを用いた場合,口形の変化が類似している単語については識別が困難となる課題がある.そのため,可視光カメラ及びサーモグラフィー,筋電位センサを用いて,発話動作から口の動きや口内の情報に関する時系列データを取得し,それらを融合する深層学習を行った.その結果,サーモグラフィーにより得られた熱動画像を学習データに含むことが認識性能の向上に寄与した.特に熱動画像と筋電位を融合することで最良の認識性能が得られた.
抄録(英) The aim of this study is to clarify the effectiveness of silent word recognition using multiple sensors. When a visible light camera is used as one means of silent speech recognition, there is a problem that it is difficult to identify words with similar changes in mouth shape. Hence, we acquired time-series data on mouth movements and information in oral cavity by using a visible light camera, thermography, and EMG sensor, and performed deep learning by fusing these data. As a result, including the thermal image obtained by thermography in the training data contributed to the improvement of recognition performance. In particular, the best recognition performance was obtained by fusing the thermal image and EMG.
キーワード(和) 口唇部特徴点 / 筋電位 / 熱動画像 / 機械読唇 / 深層学習
キーワード(英) mouth feature points / EMG / thermal image / lipreading / deep learning
タイトル(和) 複数のセンサを用いる無発声単語認識に関する研究
タイトル(英) A study on silent word recognition using various sensors
