講演名 | 2022-05-13 単語読唇に有効な深層学習モデルの検討 荒金 大清(九工大), 齊藤 剛史(九工大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本論文では,動画像データの教師あり学習の一つである読唇技術に関して,様々な深層学習モデルの検討に取り組む.認識実験には,読唇分野における大規模公開データセットの一つであり,2016年に公開されたLip Reading in the Wild(LRW)を用いる.LRWは英単語500語を認識対象としている.当初の認識精度は66.1%であったが,多くの研究グループが取り組み,現在のSOTAの認識精度は3D-Conv + ResNet18 + MS-TCN + 知識の蒸留による88.5%である.本論文ではSOTAのモデルを参考に,WideResNetやEfficientNet,TransformerやVision Transformerなどを組み合わせた深層学習モデルを用いて,読唇に有効なモデルを検討したためその結果を報告する. |
抄録(英) | This paper studies various deep learning models for lip-reading technology, including one of supervised learning of the video. Lip Reading in the Wild (LRW), one of the large-scale public datasets in lip-reading, is used for the recognition experiment. The recognition target of LRW is 500 English words, which was released in 2016. Initially, the recognition accuracy was 66.1%, but many research groups have been working on it, and the current SOTA has achieved 88.5% by 3D-Conv + ResNet18 + MS-TCN + knowledge distillation. This paper investigates effective deep learning models for lip-reading that combine WideResNet, EfficientNet, Transformer, Vision Transformer, regarding the SOTA model. |
キーワード(和) | 読唇 / 単語 / 深層学習 / LRW |
キーワード(英) | Lip-reading / word / deep neural network / LRW |
資料番号 | PRMU2022-4 |
発行日 | 2022-05-05 (PRMU) |
研究会情報 | |
研究会 | PRMU / IPSJ-CVIM |
---|---|
開催期間 | 2022/5/12(から2日開催) |
開催地(和) | 豊田工業大学 |
開催地(英) | Toyota Technological Institute |
テーマ(和) | 研究の進め方(卒論後の学生向け企画) |
テーマ(英) | How to conduct research (post-graduation project for students) |
委員長氏名(和) | 内田 誠一(九大) |
委員長氏名(英) | Seiichi Uchida(Kyushu Univ.) |
副委員長氏名(和) | 岩村 雅一(阪府大) / 安倍 満(デンソーアイティーラボラトリ) |
副委員長氏名(英) | Masakazu Iwamura(Osaka Pref. Univ.) / Mitsuru Anpai(Denso IT Lab.) |
幹事氏名(和) | 柴田 剛志(NTT) / 西山 正志(鳥取大) |
幹事氏名(英) | Takashi Shibata(NTT) / Masashi Nishiyama(Tottori Univ.) |
幹事補佐氏名(和) | 山口 光太(サイバーエージェント) / 松井 勇佑(東大) |
幹事補佐氏名(英) | Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media |
---|---|
本文の言語 | JPN |
タイトル(和) | 単語読唇に有効な深層学習モデルの検討 |
サブタイトル(和) | |
タイトル(英) | Efficient DNN model for word lip-reading |
サブタイトル(和) | |
キーワード(1)(和/英) | 読唇 / Lip-reading |
キーワード(2)(和/英) | 単語 / word |
キーワード(3)(和/英) | 深層学習 / deep neural network |
キーワード(4)(和/英) | LRW / LRW |
第 1 著者 氏名(和/英) | 荒金 大清 / Daiki Arakane |
第 1 著者 所属(和/英) | 九州工業大学(略称:九工大) Kyushu Institute of Technology,(略称:Kyutech) |
第 2 著者 氏名(和/英) | 齊藤 剛史 / Takeshi Saitoh |
第 2 著者 所属(和/英) | 九州工業大学(略称:九工大) Kyushu Institute of Technology,(略称:Kyutech) |
発表年月日 | 2022-05-13 |
資料番号 | PRMU2022-4 |
巻番号(vol) | vol.122 |
号番号(no) | PRMU-13 |
ページ範囲 | pp.18-23(PRMU), |
ページ数 | 6 |
発行日 | 2022-05-05 (PRMU) |