講演名 2023-03-02
メタ学習を用いた単語読唇の検討
児玉 道成(九工大), 齊藤 剛史(九工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 視覚情報のみを用いて発話内容を推定する読唇技術は,教師あり学習の一種であり,大規模なデータセットが望まれている.しかし,発話シーンの収集はコストがかかる問題がある.そこで本論文では,収集コストを抑えるために,少数データで学習するアプローチの中で,メタ学習を用いる手法を検討する.読唇用公開データセットLRWおよびSSSD,比較用として行動認識公開データセットUCF101の三つのデータセットを用いて,ProtoNetやDeepBDCなど幾つかのメタ学習手法を用いて認識実験を実施した.その結果,UCF101に比べるとLRWとSSSDでは低い認識精度であった.本稿では実施した実験結果を報告する.
抄録(英) Lip-reading technology, which estimates utterance content using only visual information, is a kind of supervised learning, and a large-scale data set is desired. However, collecting utterance scenes is costly. Therefore, in this paper, in order to reduce the collection cost, we consider a method that uses meta learning in the approach of learning with a small number of data. Recognition experiments were conducted using several meta learning methods such as ProtoNet and DeepBDC using three datasets: public datasets LRW and SSSD for lip-reading, and public action recognition dataset UCF101 for comparison. As a result, compared to UCF101, LRW and SSSD had lower recognition accuracy. In this paper, we report the experimental results.
キーワード(和) Few-shot learning / メタ学習 / 読唇 / 単語
キーワード(英) Few-shot learning / meta learning / lip-reading / word
資料番号 PRMU2022-77,IBISML2022-84
発行日 2023-02-23 (PRMU, IBISML)

研究会情報
研究会 PRMU / IBISML / IPSJ-CVIM
開催期間 2023/3/2(から2日開催)
開催地(和) はこだて未来大学
開催地(英) Future University Hakodate
テーマ(和) 異分野連携(PRMU)、AutoML (CVIM)、機械学習の理論と応用の広がり(IBISML)
テーマ(英)
委員長氏名(和) 内田 誠一(九大) / 杉山 将(東大)
委員長氏名(英) Seiichi Uchida(Kyushu Univ.) / Masashi Sugiyama(Univ. of Tokyo)
副委員長氏名(和) 舩冨 卓哉(奈良先端大) / 安倍 満(デンソーアイティーラボラトリ) / 神嶌 敏弘(産総研) / 津田 宏治(東大)
副委員長氏名(英) Takuya Funatomi(NAIST) / Mitsuru Anpai(Denso IT Lab.) / Toshihiro Kamishima(AIST) / Koji Tsuda(Univ. of Tokyo)
幹事氏名(和) 山口 光太(サイバーエージェント) / 松井 勇佑(東大) / 岩田 具治(NTT) / 中村 篤祥(北大)
幹事氏名(英) Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo) / Tomoharu Iwata(NTT) / Atsuyoshi Nakamura(Hokkaido Univ.)
幹事補佐氏名(和) 井上 中順(東工大) / 川西 康友(理研) / 河原 吉伸(阪大) / 鈴木 大慈(東工大)
幹事補佐氏名(英) Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken) / Yoshinobu Kawahara(Osaka Univ.) / Taiji Suzuki(Tokyo Inst. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Information-Based Induction Sciences and Machine Learning / Special Interest Group on Computer Vision and Image Media
本文の言語 JPN
タイトル(和) メタ学習を用いた単語読唇の検討
サブタイトル(和)
タイトル(英) A Study of Word Lip-Reading using Meta Learnin
サブタイトル(和)
キーワード(1)(和/英) Few-shot learning / Few-shot learning
キーワード(2)(和/英) メタ学習 / meta learning
キーワード(3)(和/英) 読唇 / lip-reading
キーワード(4)(和/英) 単語 / word
第 1 著者 氏名(和/英) 児玉 道成 / Michinari Kodama
第 1 著者 所属(和/英) 九州工業大学(略称:九工大)
Kyushu Institute of Technology(略称:kyutech)
第 2 著者 氏名(和/英) 齊藤 剛史 / Takeshi Saitoh
第 2 著者 所属(和/英) 九州工業大学(略称:九工大)
Kyushu Institute of Technology(略称:kyutech)
発表年月日 2023-03-02
資料番号 PRMU2022-77,IBISML2022-84
巻番号(vol) vol.122
号番号(no) PRMU-404,IBISML-405
ページ範囲 pp.102-106(PRMU), pp.102-106(IBISML),
ページ数 5
発行日 2023-02-23 (PRMU, IBISML)