講演名 2022-05-13
単語読唇に有効な深層学習モデルの検討
荒金 大清(九工大), 齊藤 剛史(九工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では,動画像データの教師あり学習の一つである読唇技術に関して,様々な深層学習モデルの検討に取り組む.認識実験には,読唇分野における大規模公開データセットの一つであり,2016年に公開されたLip Reading in the Wild(LRW)を用いる.LRWは英単語500語を認識対象としている.当初の認識精度は66.1%であったが,多くの研究グループが取り組み,現在のSOTAの認識精度は3D-Conv + ResNet18 + MS-TCN + 知識の蒸留による88.5%である.本論文ではSOTAのモデルを参考に,WideResNetやEfficientNet,TransformerやVision Transformerなどを組み合わせた深層学習モデルを用いて,読唇に有効なモデルを検討したためその結果を報告する.
抄録(英) This paper studies various deep learning models for lip-reading technology, including one of supervised learning of the video. Lip Reading in the Wild (LRW), one of the large-scale public datasets in lip-reading, is used for the recognition experiment. The recognition target of LRW is 500 English words, which was released in 2016. Initially, the recognition accuracy was 66.1%, but many research groups have been working on it, and the current SOTA has achieved 88.5% by 3D-Conv + ResNet18 + MS-TCN + knowledge distillation. This paper investigates effective deep learning models for lip-reading that combine WideResNet, EfficientNet, Transformer, Vision Transformer, regarding the SOTA model.
キーワード(和) 読唇 / 単語 / 深層学習 / LRW
キーワード(英) Lip-reading / word / deep neural network / LRW
資料番号 PRMU2022-4
発行日 2022-05-05 (PRMU)

研究会情報
研究会 PRMU / IPSJ-CVIM
開催期間 2022/5/12(から2日開催)
開催地(和) 豊田工業大学
開催地(英) Toyota Technological Institute
テーマ(和) 研究の進め方(卒論後の学生向け企画)
テーマ(英) How to conduct research (post-graduation project for students)
委員長氏名(和) 内田 誠一(九大)
委員長氏名(英) Seiichi Uchida(Kyushu Univ.)
副委員長氏名(和) 岩村 雅一(阪府大) / 安倍 満(デンソーアイティーラボラトリ)
副委員長氏名(英) Masakazu Iwamura(Osaka Pref. Univ.) / Mitsuru Anpai(Denso IT Lab.)
幹事氏名(和) 柴田 剛志(NTT) / 西山 正志(鳥取大)
幹事氏名(英) Takashi Shibata(NTT) / Masashi Nishiyama(Tottori Univ.)
幹事補佐氏名(和) 山口 光太(サイバーエージェント) / 松井 勇佑(東大)
幹事補佐氏名(英) Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) 単語読唇に有効な深層学習モデルの検討
サブタイトル(和)
タイトル(英) Efficient DNN model for word lip-reading
サブタイトル(和)
キーワード(1)(和/英) 読唇 / Lip-reading
キーワード(2)(和/英) 単語 / word
キーワード(3)(和/英) 深層学習 / deep neural network
キーワード(4)(和/英) LRW / LRW
第 1 著者 氏名(和/英) 荒金 大清 / Daiki Arakane
第 1 著者 所属(和/英) 九州工業大学(略称:九工大)
Kyushu Institute of Technology,(略称:Kyutech)
第 2 著者 氏名(和/英) 齊藤 剛史 / Takeshi Saitoh
第 2 著者 所属(和/英) 九州工業大学(略称:九工大)
Kyushu Institute of Technology,(略称:Kyutech)
発表年月日 2022-05-13
資料番号 PRMU2022-4
巻番号(vol) vol.122
号番号(no) PRMU-13
ページ範囲 pp.18-23(PRMU),
ページ数 6
発行日 2022-05-05 (PRMU)