講演名 2022-11-29
Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法
北條 圭悟(豊橋技科大), 森 大輝(豊橋技科大), 若林 佑幸(豊橋技科大), 小川 厚徳(NTT), 北岡 教英(豊橋技科大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) Encoder--Decoder音声認識の性能を改善する手法として音声認識モデルと言語モデルの統合がある.音声認識モデルと言語モデルの統合手法の一つとして,Density Ratio Approach(DRA)が登場し,標準的な統合手法であるshallow fusionの性能を上回ることが判明した.我々はこのDRAを応用し,複数の音声認識モデルを併用し,それらが持つ情報を統合することで得られる頑健な音響情報と音声認識モデルが学習していない言語情報を統合する手法を提案する.この提案手法の有効性を検証するため,文字誤り率を用いて従来の統合手法との比較を行った.実験の結果,提案手法は1つの音声認識モデルを使用した従来の統合手法よりも高い性能であることが確認された.また,提案手法で用いる複数の音声認識モデルの学習に用いたデータをすべて用いて学習された音声認識モデルの精度を超えることはできなかったが,新たな音声認識モデルを学習することなく,それに近い性能を得た.
抄録(英) One of the methods to improve the performance of Encoder--Decoder speech recognition is the integration of an ASR models and a language model. Based on the Density Ratio Approach, we propose a method to build an ASR system by integrating multiple ASR models and combining them with an external language models. The proposed method enables speech recognition use a variety of acoustic information and linguistic information that has not been learned by the ASR models. Experimental results show that the proposed method is more accurate than conventional integration methods.
キーワード(和) 複数ASRモデル / 音響情報の統合 / 言語モデルの置換 / Density Ratio Approach
キーワード(英) Multiple ASR model / Integration of acoustic information / Language model replacement / Density Ratio Approach
資料番号 NLC2022-10,SP2022-30
発行日 2022-11-22 (NLC, SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2022/11/29(から3日開催)
開催地(和) 機械振興会館
開催地(英)
テーマ(和) 第24回音声言語および第9回自然言語処理シンポジウム
テーマ(英)
委員長氏名(和) 吉田 光男(筑波大) / 須藤 克仁(奈良先端科学技術大学院大学) / 戸田 智基(名大) / 戸田 智基(名古屋大学)
委員長氏名(英) Mitsuo Yoshida(Univ. of Tsukuba) / 須藤 克仁(奈良先端科学技術大学院大学) / Tomoki Toda(Nagoya Univ.) / 戸田 智基(名古屋大学)
副委員長氏名(和) 坂地 泰紀(東大) / 小早川 健(NHK)
副委員長氏名(英) Hiroki Sakaji(Univ. of Tokyo) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 光田 航(NTT) / 石野 亜耶(広島経済大) / 内海 慶(株式会社デンソーアイティーラボラトリ) / 内田 ゆず(北海学園大学) / 古宮 嘉那子(東京農工大学) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所) / 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電気通信大学) / 相原 龍(三菱電機) / 齋藤 大輔(東京大学)
幹事氏名(英) Ko Mitsuda(NTT) / Aya Ishino(Hiroshima Univ. of Economics) / 内海 慶(株式会社デンソーアイティーラボラトリ) / 内田 ゆず(北海学園大学) / 古宮 嘉那子(東京農工大学) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / 増村 亮(NTT) / 中鹿 亘(電気通信大学) / 相原 龍(三菱電機) / 齋藤 大輔(東京大学)
幹事補佐氏名(和) 高橋 寛治(Sansan) / 小川 泰弘(名大) / / 相原 龍(三菱電機) / 齋藤 大輔(東大)
幹事補佐氏名(英) Kanjin Takahashi(Sansan) / Yasuhiro Ogawa(Nagoya Univ.) / / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法
サブタイトル(和)
タイトル(英) Density Ratio Approach-based multiple Encoder-Decoder ASR model integration
サブタイトル(和)
キーワード(1)(和/英) 複数ASRモデル / Multiple ASR model
キーワード(2)(和/英) 音響情報の統合 / Integration of acoustic information
キーワード(3)(和/英) 言語モデルの置換 / Language model replacement
キーワード(4)(和/英) Density Ratio Approach / Density Ratio Approach
第 1 著者 氏名(和/英) 北條 圭悟 / Keigo Hojo
第 1 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 2 著者 氏名(和/英) 森 大輝 / Daiki Mori
第 2 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 3 著者 氏名(和/英) 若林 佑幸 / Yukoh Wakabayashi
第 3 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
第 4 著者 氏名(和/英) 小川 厚徳 / Atsunori Ogawa
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
NIPPON TELEGRAPH AND TELEPHONE CORPORATION(略称:NTT)
第 5 著者 氏名(和/英) 北岡 教英 / Norihide Kitaoka
第 5 著者 所属(和/英) 豊橋技術科学大学(略称:豊橋技科大)
Toyohashi University of Technology(略称:TUT)
発表年月日 2022-11-29
資料番号 NLC2022-10,SP2022-30
巻番号(vol) vol.122
号番号(no) NLC-287,SP-288
ページ範囲 pp.5-9(NLC), pp.5-9(SP),
ページ数 5
発行日 2022-11-22 (NLC, SP)