講演名 2022-10-22
Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案
青木 伸和(東京理科大), 澤田 隼(東京理科大), 大村 英史(東京理科大), 桂田 浩一(東京理科大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 先行手法であるConformerエンコーダーを用いたlate fusionモデルのマルチモーダル音声認識では,視覚情報と音声情報の双方で独立したConformerエンコーダーを使用しているため,両モダリティ間の低レベルな関係を考慮した学習ができていない可能性があった.そこで本研究ではConformerエンコーダーを用いたearly fusion型のEnd-to-Endマルチモーダル音声認識モデルを検討し,モダリティ間の低レベルな関係を学習可能にすることで性能向上を図る.その結果,先行研究に対して特に低SNR下での認識精度が大幅に向上することを確認できた.また,early fusionによってモデルのパラメータ数も大幅に削減できることを確認した.
抄録(英) Previous studies of late fusion models with conformer encoders use independent encoders for both visual and audio information, which may prevent the encoders from capturing the low-level relation of both information. In this study, we investigate an end-to-end audio-visual speech recognition model with early fusion using a conformer encoder to improve its performance. We aim at utilizing the information of both modalities in the low-level process of feature extraction. The experimental results show that the accuracy of early fusion in recognition rate under low SNR outperforms that of late fusion proposed in the previous studies. We also confirmed that the total number of parameters in the model can be reduced by introducing early fusion.
キーワード(和) マルチモーダル音声認識 / Conformerモデル / 早期結合モデル
キーワード(英) Audio-visual speech recognition / Conformer model / Early fusion
資料番号 SP2022-28,WIT2022-3
発行日 2022-10-15 (SP, WIT)

研究会情報
研究会 SP / WIT / IPSJ-SLP
開催期間 2022/10/22(から1日開催)
開催地(和) 京都大学
開催地(英) Kyoto University
テーマ(和) 一般
テーマ(英)
委員長氏名(和) 戸田 智基(名大) / 酒向 慎司(名工大) / 戸田 智基(名大)
委員長氏名(英) Tomoki Toda(Nagoya Univ.) / Shinji Sakou(Nagoya Inst. of Tech.) / Tomoki Toda(Nagoya Univ.)
副委員長氏名(和) / 雨宮 智浩(東大)
副委員長氏名(英) / Tomohiro Amemiya(Univ. of Tokyo)
幹事氏名(和) 増村 亮(NTT) / 中鹿 亘(電通大) / 半田 隆志(埼玉県産業技術総合センター) / 塩野目 剛亮(帝京大) / 宮城 愛美(筑波技術大) / 増村 亮(NTT) / 中鹿 亘(電通大) / 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事氏名(英) Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Manabi Miyagi(Tsukuba Univ. of Tech.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)
幹事補佐氏名(和) 相原 龍(三菱電機) / 齋藤 大輔(東大) / 細野 美奈子(産総研) / 菅野 亜紀(名大) / 小森 智康(NHK)
幹事補佐氏名(英) Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) / Tomoyasu Komori(NHK)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Well-being Information Technology / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案
サブタイトル(和)
タイトル(英) Conformer based early fusion model for audio-visual speech recognition
サブタイトル(和)
キーワード(1)(和/英) マルチモーダル音声認識 / Audio-visual speech recognition
キーワード(2)(和/英) Conformerモデル / Conformer model
キーワード(3)(和/英) 早期結合モデル / Early fusion
第 1 著者 氏名(和/英) 青木 伸和 / Nobukazu Aoki
第 1 著者 所属(和/英) 東京理科大学(略称:東京理科大)
Tokyo University of Science(略称:Tokyo Univ. of Sci.)
第 2 著者 氏名(和/英) 澤田 隼 / Shun Sawada
第 2 著者 所属(和/英) 東京理科大学(略称:東京理科大)
Tokyo University of Science(略称:Tokyo Univ. of Sci.)
第 3 著者 氏名(和/英) 大村 英史 / Hidefumi Ohmura
第 3 著者 所属(和/英) 東京理科大学(略称:東京理科大)
Tokyo University of Science(略称:Tokyo Univ. of Sci.)
第 4 著者 氏名(和/英) 桂田 浩一 / Kouichi Katsurada
第 4 著者 所属(和/英) 東京理科大学(略称:東京理科大)
Tokyo University of Science(略称:Tokyo Univ. of Sci.)
発表年月日 2022-10-22
資料番号 SP2022-28,WIT2022-3
巻番号(vol) vol.122
号番号(no) SP-221,WIT-222
ページ範囲 pp.8-13(SP), pp.8-13(WIT),
ページ数 6
発行日 2022-10-15 (SP, WIT)