講演名 2023-03-17
機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響
木村 一馬(日本工大), 大田 健紘(日本工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では口部情報のみから発話内容を推定する読唇術を機械学習で行うために,発話者の顔の三次元モデルをデータ拡張に使用する方法について検討する.従来の我々の研究では単語単位での認識を行なっていたが,通常の連続音声認識と同様に音素単位での認識の手法を取り入れる.評価の結果,評価データの話者が学習データの話者に含まれており,三次元モデルに変換していないデータにおいて,0.2842のエラーレートを達成した.また,評価データの話者が学習データの話者に含まれておらず,三次元モデルに変換していないデータにおいても0.3290のエラーレートを達成した.今後は音声認識の汎用性を高めるために文章を発話したデータの増量を進めていく必要がある.
抄録(英) In this study, we investigate the use of a three-dimensional model of a speaker's face as a data augmentation method for machine learning lip reading, which estimates the content of speech based only on oral information. In our previous research, recognition was performed on a word-by-word basis, but we also introduce a method for recognition on a phoneme-by-phoneme basis, similar to normal continuous speech recognition. As a result of the evaluation, we achieved an error rate of 0.2842 for the data in which the speaker of the evaluation data was included in the speaker of the training data and was not converted to a three-dimensional model. The error rate of 0.3290 was also achieved for data where the speaker of the evaluation data was not included in the speaker of the training data and was not converted to a three-dimensional model. In the future, it will be necessary to increase the amount of data with sentences in order to improve the versatility of speech recognition
キーワード(和) 読唇術 / 三次元モデル / 音素 / データ拡張
キーワード(英) Lipreading / 3D Models / Phoneme / Data augmentation
資料番号 MICT2022-59
発行日 2023-03-10 (MICT)

研究会情報
研究会 EMCJ / MICT
開催期間 2023/3/17(から1日開催)
開催地(和) 機械振興会館
開催地(英) Kikai-Shinko-Kaikan Bldg
テーマ(和) ヘルスケア・医療情報通信技術,生体,EMC,一般
テーマ(英) Healthcare and Medical Information Communication Technologies, EMC, etc
委員長氏名(和) 西方 敦博(東工大) / 田中 宏和(広島市大)
委員長氏名(英) Atsuhiro Nishikata(Tokyo Inst. of Tech.) / Hirokazu Tanaka(Hiroshima City Univ.)
副委員長氏名(和) 田島 公博(NTT-AT) / 杉本 千佳(横浜国大) / 安在 大祐(名工大)
副委員長氏名(英) Kimihiro Tajima(NTT-AT) / Chika Sugimoto(Yokohama National Univ.) / Daisuke Anzai(Nagoya Inst. of Tech.)
幹事氏名(和) 日景 隆(北大) / 高橋 昌義(日立) / 高林 健人(岡山県立大) / 石田 開(純真学園大)
幹事氏名(英) Takashi Hikage(Hokkaido Univ.) / Masayoshi Takahashi(Hitachi) / Kento Takabayashi(Okayama Pref. Univ.) / Kai Ishida(Junshin Gakuen Univ.)
幹事補佐氏名(和) 松島 清人(日立) / 緒方 健二(直鞍情報・産業振興協会) / 松嶋 徹(九工大) / 伊藤 孝弘(広島市立大) / 中山 奈津紀(名大) / 西川 拓也(国立循環器病研究センター)
幹事補佐氏名(英) Kiyoto Matsushima(Hitachi) / Kenji Ogata(ADOX) / Toru Matsushima(Kyushu Inst. of Tech.) / Takahiro Ito(Hiroshima City Univ) / Natsuki Nakayama(Nagoya Univ.) / Takuya Nishikawa(National Cerebral and Cardiovascular Center Hospital)

講演論文情報詳細
申込み研究会 Technical Committee on Electromagnetic Compatibility / Technical Committee on Healthcare and Medical Information Communication Technology
本文の言語 JPN
タイトル(和) 機械読唇における三次元モデルを用いたデータ拡張が認識精度に与える影響
サブタイトル(和)
タイトル(英) An Effect of Data Augmentation using 3D Models in Machine Lipreading on the Recognition Accuracy
サブタイトル(和)
キーワード(1)(和/英) 読唇術 / Lipreading
キーワード(2)(和/英) 三次元モデル / 3D Models
キーワード(3)(和/英) 音素 / Phoneme
キーワード(4)(和/英) データ拡張 / Data augmentation
第 1 著者 氏名(和/英) 木村 一馬 / Kazuma Kimura
第 1 著者 所属(和/英) 日本工業大学(略称:日本工大)
Nippon Institute of Technology(略称:NIT)
第 2 著者 氏名(和/英) 大田 健紘 / Kenko Ota
第 2 著者 所属(和/英) 日本工業大学(略称:日本工大)
Nippon Institute of Technology(略称:NIT)
発表年月日 2023-03-17
資料番号 MICT2022-59
巻番号(vol) vol.122
号番号(no) MICT-447
ページ範囲 pp.17-21(MICT),
ページ数 5
発行日 2023-03-10 (MICT)