単語読唇に有効な深層学習モデルの検討

荒金 大清; 齊藤 剛史

講演名	2022-05-13 単語読唇に有効な深層学習モデルの検討荒金大清(九工大), 齊藤剛史(九工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本論文では，動画像データの教師あり学習の一つである読唇技術に関して，様々な深層学習モデルの検討に取り組む．認識実験には，読唇分野における大規模公開データセットの一つであり，2016年に公開されたLip Reading in the Wild（LRW）を用いる．LRWは英単語500語を認識対象としている．当初の認識精度は66.1%であったが，多くの研究グループが取り組み，現在のSOTAの認識精度は3D-Conv + ResNet18 + MS-TCN + 知識の蒸留による88.5%である．本論文ではSOTAのモデルを参考に，WideResNetやEfficientNet，TransformerやVision Transformerなどを組み合わせた深層学習モデルを用いて，読唇に有効なモデルを検討したためその結果を報告する．
抄録(英)	This paper studies various deep learning models for lip-reading technology, including one of supervised learning of the video. Lip Reading in the Wild (LRW), one of the large-scale public datasets in lip-reading, is used for the recognition experiment. The recognition target of LRW is 500 English words, which was released in 2016. Initially, the recognition accuracy was 66.1%, but many research groups have been working on it, and the current SOTA has achieved 88.5% by 3D-Conv + ResNet18 + MS-TCN + knowledge distillation. This paper investigates effective deep learning models for lip-reading that combine WideResNet, EfficientNet, Transformer, Vision Transformer, regarding the SOTA model.
キーワード(和)	読唇 / 単語 / 深層学習 / LRW
キーワード(英)	Lip-reading / word / deep neural network / LRW
資料番号	PRMU2022-4
発行日	2022-05-05 (PRMU)

研究会情報
研究会	PRMU / IPSJ-CVIM
開催期間	2022/5/12(から2日開催)
開催地（和）	豊田工業大学
開催地（英）	Toyota Technological Institute
テーマ（和）	研究の進め方（卒論後の学生向け企画）
テーマ（英）	How to conduct research (post-graduation project for students)
委員長氏名（和）	内田誠一(九大)
委員長氏名（英）	Seiichi Uchida(Kyushu Univ.)
副委員長氏名（和）	岩村雅一(阪府大) / 安倍満(デンソーアイティーラボラトリ)
副委員長氏名（英）	Masakazu Iwamura(Osaka Pref. Univ.) / Mitsuru Anpai(Denso IT Lab.)
幹事氏名（和）	柴田剛志(NTT) / 西山正志(鳥取大)
幹事氏名（英）	Takashi Shibata(NTT) / Masashi Nishiyama(Tottori Univ.)
幹事補佐氏名（和）	山口光太(サイバーエージェント) / 松井勇佑(東大)
幹事補佐氏名（英）	Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media
本文の言語	JPN
タイトル（和）	単語読唇に有効な深層学習モデルの検討
サブタイトル（和）
タイトル（英）	Efficient DNN model for word lip-reading
サブタイトル（和）
キーワード(1)（和/英）	読唇 / Lip-reading
キーワード(2)（和/英）	単語 / word
キーワード(3)（和/英）	深層学習 / deep neural network
キーワード(4)（和/英）	LRW / LRW
第 1 著者氏名（和/英）	荒金大清 / Daiki Arakane
第 1 著者所属（和/英）	九州工業大学(略称：九工大) Kyushu Institute of Technology,(略称：Kyutech)
第 2 著者氏名（和/英）	齊藤剛史 / Takeshi Saitoh
第 2 著者所属（和/英）	九州工業大学(略称：九工大) Kyushu Institute of Technology,(略称：Kyutech)
発表年月日	2022-05-13
資料番号	PRMU2022-4
巻番号（vol）	vol.122
号番号（no）	PRMU-13
ページ範囲	pp.18-23(PRMU),
ページ数	6
発行日	2022-05-05 (PRMU)