Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案

青木 伸和; 澤田 隼; 大村 英史; 桂田 浩一

講演名	2022-10-22 Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案青木伸和(東京理科大), 澤田隼(東京理科大), 大村英史(東京理科大), 桂田浩一(東京理科大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	先行手法であるConformerエンコーダーを用いたlate fusionモデルのマルチモーダル音声認識では，視覚情報と音声情報の双方で独立したConformerエンコーダーを使用しているため，両モダリティ間の低レベルな関係を考慮した学習ができていない可能性があった．そこで本研究ではConformerエンコーダーを用いたearly fusion型のEnd-to-Endマルチモーダル音声認識モデルを検討し，モダリティ間の低レベルな関係を学習可能にすることで性能向上を図る．その結果，先行研究に対して特に低SNR下での認識精度が大幅に向上することを確認できた．また，early fusionによってモデルのパラメータ数も大幅に削減できることを確認した．
抄録(英)	Previous studies of late fusion models with conformer encoders use independent encoders for both visual and audio information, which may prevent the encoders from capturing the low-level relation of both information. In this study, we investigate an end-to-end audio-visual speech recognition model with early fusion using a conformer encoder to improve its performance. We aim at utilizing the information of both modalities in the low-level process of feature extraction. The experimental results show that the accuracy of early fusion in recognition rate under low SNR outperforms that of late fusion proposed in the previous studies. We also confirmed that the total number of parameters in the model can be reduced by introducing early fusion.
キーワード(和)	マルチモーダル音声認識 / Conformerモデル / 早期結合モデル
キーワード(英)	Audio-visual speech recognition / Conformer model / Early fusion
資料番号	SP2022-28,WIT2022-3
発行日	2022-10-15 (SP, WIT)

研究会情報
研究会	SP / WIT / IPSJ-SLP
開催期間	2022/10/22(から1日開催)
開催地（和）	京都大学
開催地（英）	Kyoto University
テーマ（和）	一般
テーマ（英）
委員長氏名（和）	戸田智基(名大) / 酒向慎司(名工大) / 戸田智基(名大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.) / Shinji Sakou(Nagoya Inst. of Tech.) / Tomoki Toda(Nagoya Univ.)
副委員長氏名（和）	/ 雨宮智浩(東大)
副委員長氏名（英）	/ Tomohiro Amemiya(Univ. of Tokyo)
幹事氏名（和）	増村亮(NTT) / 中鹿亘(電通大) / 半田隆志(埼玉県産業技術総合センター) / 塩野目剛亮(帝京大) / 宮城愛美(筑波技術大) / 増村亮(NTT) / 中鹿亘(電通大) / 相原龍(三菱電機) / 齋藤大輔(東大)
幹事氏名（英）	Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Takashi Handa(Saitama Industrial Tech. Center) / Takeaki Shionome(Teikyo Univ.) / Manabi Miyagi(Tsukuba Univ. of Tech.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大) / 細野美奈子(産総研) / 菅野亜紀(名大) / 小森智康(NHK)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Minako Hosono(AIST) / Aki Sugano(Nagoya Univ.) / Tomoyasu Komori(NHK)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Technical Committee on Well-being Information Technology / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	Conformerを用いた早期結合型マルチモーダル音声認識モデルの提案
サブタイトル（和）
タイトル（英）	Conformer based early fusion model for audio-visual speech recognition
サブタイトル（和）
キーワード(1)（和/英）	マルチモーダル音声認識 / Audio-visual speech recognition
キーワード(2)（和/英）	Conformerモデル / Conformer model
キーワード(3)（和/英）	早期結合モデル / Early fusion
第 1 著者氏名（和/英）	青木伸和 / Nobukazu Aoki
第 1 著者所属（和/英）	東京理科大学(略称：東京理科大) Tokyo University of Science(略称：Tokyo Univ. of Sci.)
第 2 著者氏名（和/英）	澤田隼 / Shun Sawada
第 2 著者所属（和/英）	東京理科大学(略称：東京理科大) Tokyo University of Science(略称：Tokyo Univ. of Sci.)
第 3 著者氏名（和/英）	大村英史 / Hidefumi Ohmura
第 3 著者所属（和/英）	東京理科大学(略称：東京理科大) Tokyo University of Science(略称：Tokyo Univ. of Sci.)
第 4 著者氏名（和/英）	桂田浩一 / Kouichi Katsurada
第 4 著者所属（和/英）	東京理科大学(略称：東京理科大) Tokyo University of Science(略称：Tokyo Univ. of Sci.)
発表年月日	2022-10-22
資料番号	SP2022-28,WIT2022-3
巻番号（vol）	vol.122
号番号（no）	SP-221,WIT-222
ページ範囲	pp.8-13(SP), pp.8-13(WIT),
ページ数	6
発行日	2022-10-15 (SP, WIT)