Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法

北條 圭悟; 森 大輝; 若林 佑幸; 小川 厚徳; 北岡 教英

講演名	2022-11-29 Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法北條圭悟(豊橋技科大), 森大輝(豊橋技科大), 若林佑幸(豊橋技科大), 小川厚徳(NTT), 北岡教英(豊橋技科大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	Encoder--Decoder音声認識の性能を改善する手法として音声認識モデルと言語モデルの統合がある．音声認識モデルと言語モデルの統合手法の一つとして，Density Ratio Approach（DRA）が登場し，標準的な統合手法であるshallow fusionの性能を上回ることが判明した．我々はこのDRAを応用し，複数の音声認識モデルを併用し，それらが持つ情報を統合することで得られる頑健な音響情報と音声認識モデルが学習していない言語情報を統合する手法を提案する．この提案手法の有効性を検証するため，文字誤り率を用いて従来の統合手法との比較を行った．実験の結果，提案手法は1つの音声認識モデルを使用した従来の統合手法よりも高い性能であることが確認された．また，提案手法で用いる複数の音声認識モデルの学習に用いたデータをすべて用いて学習された音声認識モデルの精度を超えることはできなかったが，新たな音声認識モデルを学習することなく，それに近い性能を得た．
抄録(英)	One of the methods to improve the performance of Encoder--Decoder speech recognition is the integration of an ASR models and a language model. Based on the Density Ratio Approach, we propose a method to build an ASR system by integrating multiple ASR models and combining them with an external language models. The proposed method enables speech recognition use a variety of acoustic information and linguistic information that has not been learned by the ASR models. Experimental results show that the proposed method is more accurate than conventional integration methods.
キーワード(和)	複数ASRモデル / 音響情報の統合 / 言語モデルの置換 / Density Ratio Approach
キーワード(英)	Multiple ASR model / Integration of acoustic information / Language model replacement / Density Ratio Approach
資料番号	NLC2022-10,SP2022-30
発行日	2022-11-22 (NLC, SP)

研究会情報
研究会	NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間	2022/11/29(から3日開催)
開催地（和）	機械振興会館
開催地（英）
テーマ（和）	第24回音声言語および第9回自然言語処理シンポジウム
テーマ（英）
委員長氏名（和）	吉田光男(筑波大) / 須藤克仁(奈良先端科学技術大学院大学) / 戸田智基(名大) / 戸田智基(名古屋大学)
委員長氏名（英）	Mitsuo Yoshida(Univ. of Tsukuba) / 須藤克仁(奈良先端科学技術大学院大学) / Tomoki Toda(Nagoya Univ.) / 戸田智基(名古屋大学)
副委員長氏名（和）	坂地泰紀(東大) / 小早川健(NHK)
副委員長氏名（英）	Hiroki Sakaji(Univ. of Tokyo) / Takeshi Kobayakawa(NHK)
幹事氏名（和）	光田航(NTT) / 石野亜耶(広島経済大) / 内海慶(株式会社デンソーアイティーラボラトリ) / 内田ゆず(北海学園大学) / 古宮嘉那子(東京農工大学) / 萩行正嗣(株式会社ウェザーニューズ) / 吉永直樹(東京大学) / 吉野幸一郎(理化学研究所) / 増村亮(NTT) / 中鹿亘(電通大) / 増村亮(NTT) / 中鹿亘(電気通信大学) / 相原龍(三菱電機) / 齋藤大輔(東京大学)
幹事氏名（英）	Ko Mitsuda(NTT) / Aya Ishino(Hiroshima Univ. of Economics) / 内海慶(株式会社デンソーアイティーラボラトリ) / 内田ゆず(北海学園大学) / 古宮嘉那子(東京農工大学) / 萩行正嗣(株式会社ウェザーニューズ) / 吉永直樹(東京大学) / 吉野幸一郎(理化学研究所) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / 増村亮(NTT) / 中鹿亘(電気通信大学) / 相原龍(三菱電機) / 齋藤大輔(東京大学)
幹事補佐氏名（和）	高橋寛治(Sansan) / 小川泰弘(名大) / / 相原龍(三菱電機) / 齋藤大輔(東大)
幹事補佐氏名（英）	Kanjin Takahashi(Sansan) / Yasuhiro Ogawa(Nagoya Univ.) / / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法
サブタイトル（和）
タイトル（英）	Density Ratio Approach-based multiple Encoder-Decoder ASR model integration
サブタイトル（和）
キーワード(1)（和/英）	複数ASRモデル / Multiple ASR model
キーワード(2)（和/英）	音響情報の統合 / Integration of acoustic information
キーワード(3)（和/英）	言語モデルの置換 / Language model replacement
キーワード(4)（和/英）	Density Ratio Approach / Density Ratio Approach
第 1 著者氏名（和/英）	北條圭悟 / Keigo Hojo
第 1 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
第 2 著者氏名（和/英）	森大輝 / Daiki Mori
第 2 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
第 3 著者氏名（和/英）	若林佑幸 / Yukoh Wakabayashi
第 3 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
第 4 著者氏名（和/英）	小川厚徳 / Atsunori Ogawa
第 4 著者所属（和/英）	日本電信電話株式会社(略称：NTT) NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称：NTT)
第 5 著者氏名（和/英）	北岡教英 / Norihide Kitaoka
第 5 著者所属（和/英）	豊橋技術科学大学(略称：豊橋技科大) Toyohashi University of Technology(略称：TUT)
発表年月日	2022-11-29
資料番号	NLC2022-10,SP2022-30
巻番号（vol）	vol.122
号番号（no）	NLC-287,SP-288
ページ範囲	pp.5-9(NLC), pp.5-9(SP),
ページ数	5
発行日	2022-11-22 (NLC, SP)