講演名 2022-12-01
大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応
木内 貴浩(豊橋技科大), 森 大輝(豊橋技科大), 小川 厚徳(NTT), 北岡 教英(豊橋技科大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 現在,Transformer音声認識モデルなどの高性能なモデルの登場により様々なサービスや事業で音声認識が活用されいる.しかし,高精度な音声認識モデルをスクラッチで学習するためには,大量の音声データと,その書き起こしテキストデータが必要となる.これらのデータを自前で準備することは時間的にも経済的にも難しいとされている.一方で,ターゲットドメイン内の音声データのみであれば比較的容易に準備することが可能である.そこで本研究では,大量のターゲットドメイン音声のみで事前学習されたwav2vec 2.0モデルと,大量のドメイン外コーパスで事前学習されたTransformer ASRモデルのデコーダモジュールを統合し,比較的ターゲットドメインに適応したASRモデルを作成する.本手法は、ターゲットドメインの学習データ(音声データと,その書き起こしテキストデータ)が存在しない環境下で,ターゲットドメインの音声認識モデルを作成することを目的とする.
抄録(英) Nowadays, speech recognition is used in various services and businesses thanks to the advent of high-performance models such as the Transformer speech recognition model. However, to train our high-performance speech recognition model from scratch, we need a large amount of speech data and its transcribed text data. It is both time-consuming and economically difficult for us to prepare these data on our own. On the other hand, it is relatively easy to prepare only the speech data of the target domain. Therefore, in this study, we integrate the wav2vec 2.0 model, which is pre-trained only with a large amount of target domain speech data, and the decoder module of the Transformer speech recognition model, which is pre-trained with a large amount of out-of-domain corpus, to create an speech recognition model that is comparatively applicable to the target domain. The purpose of this study is to create a speech recognition model for the target domain in an environment where the training data (speech data and its transcribed text data) of the target domain does not exist.
キーワード(和) wav2vec 2.0 / ドメイン適応 / end-to-end音声認識 / Encoder-Decoderモデル
キーワード(英) wav2vec 2.0 / domain adaptation / end-to-end speech recognition / Encoder-Decoder model
資料番号 NLC2022-18,SP2022-38
発行日 2022-11-22 (NLC, SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2022/11/29(から3日開催)
開催地(和) 機械振興会館
開催地(英)
テーマ(和) 第24回音声言語および第9回自然言語処理シンポジウム
テーマ(英)
委員長氏名(和) 吉田 光男(筑波大) / 須藤 克仁(奈良先端科学技術大学院大学) / 戸田 智基(名大) / 戸田 智基(名古屋大学)
委員長氏名(英) Mitsuo Yoshida(Univ. of Tsukuba) / 須藤 克仁(奈良先端科学技術大学院大学) / Tomoki Toda(Nagoya Univ.) / 戸田 智基(名古屋大学)
副委員長氏名(和) 坂地 泰紀(東大) / 小早川 健(NHK)
副委員長氏名(英) Hiroki Sakaji(Univ. of Tokyo) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 光田 航(NTT) / 石野 亜耶(広島経済大) / 内海 慶(株式会社デンソーアイティーラボラトリ) / 内田 ゆず(北海学園大学) / 古宮 嘉那子(東京農工大学) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所) / 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電気通信大学) / 相原 龍(三菱電機) / 齋藤 大輔(東京大学)
幹事氏名(英) Ko Mitsuda(NTT) / Aya Ishino(Hiroshima Univ. of Economics) / 内海 慶(株式会社デンソーアイティーラボラトリ) / 内田 ゆず(北海学園大学) / 古宮 嘉那子(東京農工大学) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / 増村 亮(NTT) / 中鹿 亘(電気通信大学) / 相原 龍(三菱電機) / 齋藤 大輔(東京大学)
幹事補佐氏名(和) 高橋 寛治(Sansan) / 小川 泰弘(名大) / / 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事補佐氏名(英) Kanjin Takahashi(Sansan) / Yasuhiro Ogawa(Nagoya Univ.) / / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応
サブタイトル(和)
タイトル(英) ASR model adaptation to target domain with large-scale audio data without transcription
サブタイトル(和)
キーワード(1)(和/英) wav2vec 2.0 / wav2vec 2.0
キーワード(2)(和/英) ドメイン適応 / domain adaptation
キーワード(3)(和/英) end-to-end音声認識 / end-to-end speech recognition
キーワード(4)(和/英) Encoder-Decoderモデル / Encoder-Decoder model
第 1 著者 氏名(和/英) 木内 貴浩 / Takahiro Kinouchi
第 1 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 2 著者 氏名(和/英) 森 大輝 / Daiki Mori
第 2 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 3 著者 氏名(和/英) 小川 厚徳 / Ogawa Atsunori
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT)
第 4 著者 氏名(和/英) 北岡 教英 / Norihide Kitaoka
第 4 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
発表年月日 2022-12-01
資料番号 NLC2022-18,SP2022-38
巻番号(vol) vol.122
号番号(no) NLC-287,SP-288
ページ範囲 pp.50-53(NLC), pp.50-53(SP),
ページ数 4
発行日 2022-11-22 (NLC, SP)