講演名 | 2023-03-02 メタ学習を用いた単語読唇の検討 児玉 道成(九工大), 齊藤 剛史(九工大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 視覚情報のみを用いて発話内容を推定する読唇技術は,教師あり学習の一種であり,大規模なデータセットが望まれている.しかし,発話シーンの収集はコストがかかる問題がある.そこで本論文では,収集コストを抑えるために,少数データで学習するアプローチの中で,メタ学習を用いる手法を検討する.読唇用公開データセットLRWおよびSSSD,比較用として行動認識公開データセットUCF101の三つのデータセットを用いて,ProtoNetやDeepBDCなど幾つかのメタ学習手法を用いて認識実験を実施した.その結果,UCF101に比べるとLRWとSSSDでは低い認識精度であった.本稿では実施した実験結果を報告する. |
抄録(英) | Lip-reading technology, which estimates utterance content using only visual information, is a kind of supervised learning, and a large-scale data set is desired. However, collecting utterance scenes is costly. Therefore, in this paper, in order to reduce the collection cost, we consider a method that uses meta learning in the approach of learning with a small number of data. Recognition experiments were conducted using several meta learning methods such as ProtoNet and DeepBDC using three datasets: public datasets LRW and SSSD for lip-reading, and public action recognition dataset UCF101 for comparison. As a result, compared to UCF101, LRW and SSSD had lower recognition accuracy. In this paper, we report the experimental results. |
キーワード(和) | Few-shot learning / メタ学習 / 読唇 / 単語 |
キーワード(英) | Few-shot learning / meta learning / lip-reading / word |
資料番号 | PRMU2022-77,IBISML2022-84 |
発行日 | 2023-02-23 (PRMU, IBISML) |
研究会情報 | |
研究会 | PRMU / IBISML / IPSJ-CVIM |
---|---|
開催期間 | 2023/3/2(から2日開催) |
開催地(和) | はこだて未来大学 |
開催地(英) | Future University Hakodate |
テーマ(和) | 異分野連携(PRMU)、AutoML (CVIM)、機械学習の理論と応用の広がり(IBISML) |
テーマ(英) | |
委員長氏名(和) | 内田 誠一(九大) / 杉山 将(東大) |
委員長氏名(英) | Seiichi Uchida(Kyushu Univ.) / Masashi Sugiyama(Univ. of Tokyo) |
副委員長氏名(和) | 舩冨 卓哉(奈良先端大) / 安倍 満(デンソーアイティーラボラトリ) / 神嶌 敏弘(産総研) / 津田 宏治(東大) |
副委員長氏名(英) | Takuya Funatomi(NAIST) / Mitsuru Anpai(Denso IT Lab.) / Toshihiro Kamishima(AIST) / Koji Tsuda(Univ. of Tokyo) |
幹事氏名(和) | 山口 光太(サイバーエージェント) / 松井 勇佑(東大) / 岩田 具治(NTT) / 中村 篤祥(北大) |
幹事氏名(英) | Kouta Yamaguchi(CyberAgent) / Yusuke Matsui(Univ. of Tokyo) / Tomoharu Iwata(NTT) / Atsuyoshi Nakamura(Hokkaido Univ.) |
幹事補佐氏名(和) | 井上 中順(東工大) / 川西 康友(理研) / 河原 吉伸(阪大) / 鈴木 大慈(東工大) |
幹事補佐氏名(英) | Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken) / Yoshinobu Kawahara(Osaka Univ.) / Taiji Suzuki(Tokyo Inst. of Tech.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Information-Based Induction Sciences and Machine Learning / Special Interest Group on Computer Vision and Image Media |
---|---|
本文の言語 | JPN |
タイトル(和) | メタ学習を用いた単語読唇の検討 |
サブタイトル(和) | |
タイトル(英) | A Study of Word Lip-Reading using Meta Learnin |
サブタイトル(和) | |
キーワード(1)(和/英) | Few-shot learning / Few-shot learning |
キーワード(2)(和/英) | メタ学習 / meta learning |
キーワード(3)(和/英) | 読唇 / lip-reading |
キーワード(4)(和/英) | 単語 / word |
第 1 著者 氏名(和/英) | 児玉 道成 / Michinari Kodama |
第 1 著者 所属(和/英) | 九州工業大学(略称:九工大) Kyushu Institute of Technology(略称:kyutech) |
第 2 著者 氏名(和/英) | 齊藤 剛史 / Takeshi Saitoh |
第 2 著者 所属(和/英) | 九州工業大学(略称:九工大) Kyushu Institute of Technology(略称:kyutech) |
発表年月日 | 2023-03-02 |
資料番号 | PRMU2022-77,IBISML2022-84 |
巻番号(vol) | vol.122 |
号番号(no) | PRMU-404,IBISML-405 |
ページ範囲 | pp.102-106(PRMU), pp.102-106(IBISML), |
ページ数 | 5 |
発行日 | 2023-02-23 (PRMU, IBISML) |