深層学習に顔の3次元モデルを用いた無発声単語認識に関する研究

和田 竜二; 大田 健紘

講演名	2022-03-04 深層学習に顔の3次元モデルを用いた無発声単語認識に関する研究和田竜二(日本工大), 大田健紘(日本工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究は，様々な方向を向いて発話している動画に対して無発声単語認識を実現する手法を提案し，その有効性を明らかにすることを目的とする．近年，口部の情報を取得して深層学習により機械読唇を行う研究が発展している．カメラを用いた手法の場合，カメラから顔の距離や位置，向きなどを固定することが多い．しかし，オンライン会議などで利用する場合，顔を固定することは困難である．そのため，正面を向いた発話動画から作成した顔の3次元モデルを用いて，様々な方向に顔を向けた発話動画を作成し，それを深層学習の学習データとした．性能評価実験の結果，3次元モデルを使用しない場合と比較して認識性能が向上した．
抄録(英)	The aim of this study is to propose a method to realize silent word recognition removing the constraint on face orientation, and to clarify the effectiveness of the proposed method. In recent years, research on lip reading using mouth image based on deep learning has been developed. In the case of methods using a camera, the distance, position, orientation, etc. of the face from the camera are often fixed. However, it is difficult to hold the face orientation when we use the lip reading system in an online conference. Hence, we created utterance videos with the face turning in various orientations using a 3D model, and used these data as learning data for deep learning. As a result of the performance evaluation experiment, the recognition performance was improved compared to the case where the 3D model was not used.
キーワード(和)	3次元モデル / 深層学習 / 機械読唇
キーワード(英)	3Dmodel / deep learning / lipreading
資料番号	MICT2021-103
発行日	2022-02-25 (MICT)

研究会情報
研究会	MICT / EMCJ
開催期間	2022/3/4(から1日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	ヘルスケア・医療情報通信技術，生体，EMC，一般
テーマ（英）	Healthcare and Medical Information Communication Technologies, EMC, etc
委員長氏名（和）	花田英輔(佐賀大) / 西方敦博(東工大)
委員長氏名（英）	Eisuke Hanada(Saga Univ.) / Atsuhiro Nishikata(Tokyo Inst. of Tech.)
副委員長氏名（和）	田中宏和(広島市大) / 安在大祐(名工大) / 田島公博(NTT-AT)
副委員長氏名（英）	Hirokazu Tanaka(Hiroshima City Univ.) / Daisuke Anzai(Nagoya Inst. of Tech.) / Kimihiro Tajima(NTT-AT)
幹事氏名（和）	小林匠(横浜国大) / 石田開(神奈川県立産業技術総研) / 林優一(奈良先端大) / 高橋昌義(日立)
幹事氏名（英）	Takumi Kobayashi(Yokohama National Univ.) / Kai Ishida(KISTEC) / Yuichi Hayashi(NAIST) / Masayoshi Takahashi(Hitachi)
幹事補佐氏名（和）	伊藤孝弘(広島市立大) / 高林健人(岡山県立大) / 西川拓也(国立循環器病研究センター) / 松島清人(日立) / 志田浩義(EMCテック) / 松嶋徹(九工大)
幹事補佐氏名（英）	Takahiro Ito(Hiroshima City Univ) / Kento Takabayashi(Okayama Pref. Univ.) / Takuya Nishikawa(National Cerebral and Cardiovascular Center Hospital) / Kiyoto Matsushima(Hitachi) / Hiroyoshi Shida(EMC Tech.) / Toru Matsushima(Kyushu Inst. of Tech.)

講演論文情報詳細
申込み研究会	Technical Committee on Healthcare and Medical Information Communication Technology / Technical Committee on Electromagnetic Compatibility
本文の言語	JPN
タイトル（和）	深層学習に顔の3次元モデルを用いた無発声単語認識に関する研究
サブタイトル（和）
タイトル（英）	A Study on Silent Word Recognition Based on Deep Learning Using Facial 3D Model
サブタイトル（和）
キーワード(1)（和/英）	3次元モデル / 3Dmodel
キーワード(2)（和/英）	深層学習 / deep learning
キーワード(3)（和/英）	機械読唇 / lipreading
第 1 著者氏名（和/英）	和田竜二 / Ryuji Wada
第 1 著者所属（和/英）	日本工業大学(略称：日本工大) Nippon Institute Of Technology(略称：NIT)
第 2 著者氏名（和/英）	大田健紘 / Kenko Ota
第 2 著者所属（和/英）	日本工業大学(略称：日本工大) Nippon Institute Of Technology(略称：NIT)
発表年月日	2022-03-04
資料番号	MICT2021-103
巻番号（vol）	vol.121
号番号（no）	MICT-404
ページ範囲	pp.13-18(MICT),
ページ数	6
発行日	2022-02-25 (MICT)