大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応

木内 貴浩; 森 大輝; 小川 厚徳; 北岡 教英

講演名	2022-12-01 大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応木内貴浩(豊橋技科大), 森大輝(豊橋技科大), 小川厚徳(NTT), 北岡教英(豊橋技科大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	現在，Transformer音声認識モデルなどの高性能なモデルの登場により様々なサービスや事業で音声認識が活用されいる．しかし，高精度な音声認識モデルをスクラッチで学習するためには，大量の音声データと，その書き起こしテキストデータが必要となる．これらのデータを自前で準備することは時間的にも経済的にも難しいとされている．一方で，ターゲットドメイン内の音声データのみであれば比較的容易に準備することが可能である．そこで本研究では，大量のターゲットドメイン音声のみで事前学習されたwav2vec 2.0モデルと，大量のドメイン外コーパスで事前学習されたTransformer ASRモデルのデコーダモジュールを統合し，比較的ターゲットドメインに適応したASRモデルを作成する．本手法は、ターゲットドメインの学習データ(音声データと，その書き起こしテキストデータ)が存在しない環境下で，ターゲットドメインの音声認識モデルを作成することを目的とする．
抄録(英)	Nowadays, speech recognition is used in various services and businesses thanks to the advent of high-performance models such as the Transformer speech recognition model. However, to train our high-performance speech recognition model from scratch, we need a large amount of speech data and its transcribed text data. It is both time-consuming and economically difficult for us to prepare these data on our own. On the other hand, it is relatively easy to prepare only the speech data of the target domain. Therefore, in this study, we integrate the wav2vec 2.0 model, which is pre-trained only with a large amount of target domain speech data, and the decoder module of the Transformer speech recognition model, which is pre-trained with a large amount of out-of-domain corpus, to create an speech recognition model that is comparatively applicable to the target domain. The purpose of this study is to create a speech recognition model for the target domain in an environment where the training data (speech data and its transcribed text data) of the target domain does not exist.
キーワード(和)	wav2vec 2.0 / ドメイン適応 / end-to-end音声認識 / Encoder-Decoderモデル
キーワード(英)	wav2vec 2.0 / domain adaptation / end-to-end speech recognition / Encoder-Decoder model
資料番号	NLC2022-18,SP2022-38
発行日	2022-11-22 (NLC, SP)

研究会情報
研究会	NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間	2022/11/29(から3日開催)
開催地（和）	機械振興会館
開催地（英）
テーマ（和）	第24回音声言語および第9回自然言語処理シンポジウム
テーマ（英）
委員長氏名（和）	吉田光男(筑波大) / 須藤克仁(奈良先端科学技術大学院大学) / 戸田智基(名大) / 戸田智基(名古屋大学)
委員長氏名（英）	Mitsuo Yoshida(Univ. of Tsukuba) / 須藤克仁(奈良先端科学技術大学院大学) / Tomoki Toda(Nagoya Univ.) / 戸田智基(名古屋大学)
副委員長氏名（和）	坂地泰紀(東大) / 小早川健(NHK)
副委員長氏名（英）	Hiroki Sakaji(Univ. of Tokyo) / Takeshi Kobayakawa(NHK)
幹事氏名（和）	光田航(NTT) / 石野亜耶(広島経済大) / 内海慶(株式会社デンソーアイティーラボラトリ) / 内田ゆず(北海学園大学) / 古宮嘉那子(東京農工大学) / 萩行正嗣(株式会社ウェザーニューズ) / 吉永直樹(東京大学) / 吉野幸一郎(理化学研究所) / 増村亮(NTT) / 中鹿亘(電通大) / 増村亮(NTT) / 中鹿亘(電気通信大学) / 相原龍(三菱電機) / 齋藤大輔(東京大学)
幹事氏名（英）	Ko Mitsuda(NTT) / Aya Ishino(Hiroshima Univ. of Economics) / 内海慶(株式会社デンソーアイティーラボラトリ) / 内田ゆず(北海学園大学) / 古宮嘉那子(東京農工大学) / 萩行正嗣(株式会社ウェザーニューズ) / 吉永直樹(東京大学) / 吉野幸一郎(理化学研究所) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / 増村亮(NTT) / 中鹿亘(電気通信大学) / 相原龍(三菱電機) / 齋藤大輔(東京大学)
幹事補佐氏名（和）	高橋寛治(Sansan) / 小川泰弘(名大) / / 相原龍(三菱電機) / 齋藤大輔(東大)
幹事補佐氏名（英）	Kanjin Takahashi(Sansan) / Yasuhiro Ogawa(Nagoya Univ.) / / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	大規模音声データのみ獲得できる環境下への音声認識モデルのドメイン適応
サブタイトル（和）
タイトル（英）	ASR model adaptation to target domain with large-scale audio data without transcription
サブタイトル（和）
キーワード(1)（和/英）	wav2vec 2.0 / wav2vec 2.0
キーワード(2)（和/英）	ドメイン適応 / domain adaptation
キーワード(3)（和/英）	end-to-end音声認識 / end-to-end speech recognition
キーワード(4)（和/英）	Encoder-Decoderモデル / Encoder-Decoder model
第 1 著者氏名（和/英）	木内貴浩 / Takahiro Kinouchi
第 1 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
第 2 著者氏名（和/英）	森大輝 / Daiki Mori
第 2 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
第 3 著者氏名（和/英）	小川厚徳 / Ogawa Atsunori
第 3 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称：NTT)
第 4 著者氏名（和/英）	北岡教英 / Norihide Kitaoka
第 4 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
発表年月日	2022-12-01
資料番号	NLC2022-18,SP2022-38
巻番号（vol）	vol.122
号番号（no）	NLC-287,SP-288
ページ範囲	pp.50-53(NLC), pp.50-53(SP),
ページ数	4
発行日	2022-11-22 (NLC, SP)