CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識

樋口,陽祐; 稲熊,寛文; 渡部,晋治; 小川,哲司; 小林,哲則

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2020-12-02 09:40 CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識 ○樋口陽祐（早大）・稲熊寛文（京大）・渡部晋治（JHU）・小川哲司・小林哲則（早大） NLC2020-13 SP2020-16
抄録	（和）	Connectionist Temporal Classification (CTC)とマスク推定により非自己回帰的なEnd-to-End音声認識モデルを学習し，推論時はCTCの出力をマスク推定により改善することで，推論速度の速いEnd-to-End音声認識を実現することを試みる．従来の高精度なEnd-to-Endモデルは，推論時に系列を自己回帰的に生成するため，目的系列の長さに比例した計算コストを要する．それに対し，非自己回帰的なモデルは複数の記号を並列に出力し，一定の計算コストで系列を生成できるため，推論速度が速く，より実用的な性能を期待できる．本研究では，CTCに基づく非自己回帰的なモデルを構築する．このとき，目的系列の「穴埋め問題」を解くマスク推定と同時学習することで，推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする．複数の音声認識タスクにおいて提案のモデルを評価したところ，推論速度の速い認識（CPUでRTFが0.1以下）が行えることを確認した．また，認識精度はCTCのみで学習したモデルから大幅に向上し，自己回帰的なモデルと同等の性能が得られることを確認した．
	（英）	We present a fast non-autoregressive (NAR) end-to-end automatic speech recognition (E2E-ASR) framework, which generates a sequence by refining outputs of the connectionist temporal classification (CTC) via mask prediction. Many of the previous studies on E2E-ASR focus on an textit{autoregressive} (AR) model: each output token is generated by conditioning on previously generated tokens, at the cost of requiring as many iterations as the output length. On the other hand, NAR models can simultaneously generate tokens within a constant number of iterations, which results in significant inference time reduction and better suits end-to-end ASR model for real-world scenarios. In this work, we train an E2E-ASR model with joint objectives of CTC and mask prediction. During inference, the greedy CTC output is refined by mask prediction, where errors in the CTC output are recovered by taking account of conditional dependence between output tokens. Experimental results on different speech recognition tasks show that the proposed model achieves fast inference time ($<$0.1 RTF using CPU), outperforming a standard CTC model and achieving competitive results to the AR models.
キーワード	（和）	End-to-End音声認識 / connectionist temporal classification / 非自己回帰モデル / / / / /
	（英）	end-to-end speech recognition / connectionist temporal classification / non-autoregressive sequence generation / / / / /
文献情報		信学技報, vol. 120, no. 271, SP2020-16, pp. 1-6, 2020年12月.
資料番号		SP2020-16
発行日		2020-11-25 (NLC, SP)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		NLC2020-13 SP2020-16

研究会情報
研究会	NLC IPSJ-NL SP IPSJ-SLP
開催期間	2020-12-02 - 2020-12-03
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	音声言語および自然言語処理シンポジウム
テーマ（英）
講演論文情報の詳細
申込み研究会	SP
会議コード	2020-12-NLC-NL-SP-SLP
本文の言語	日本語
タイトル（和）	CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識
サブタイトル（和）
タイトル（英）	Fast End-to-End Speech Recognition with CTC and Mask Predict
サブタイトル（英）
キーワード(1)（和/英）	End-to-End音声認識 / end-to-end speech recognition
キーワード(2)（和/英）	connectionist temporal classification / connectionist temporal classification
キーワード(3)（和/英）	非自己回帰モデル / non-autoregressive sequence generation
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	樋口陽祐 / Yosuke Higuchi / ヒグチヨウスケ
第1著者所属（和/英）	早稲田大学 (略称：早大) Waseda University (略称： Waseda Univ.)
第2著者氏名（和/英/ヨミ）	稲熊寛文 / Hirofumi Inaguma / イナグマヒロフミ
第2著者所属（和/英）	京都大学 (略称：京大) Kyoto Univeristy (略称： Kyoto Univ.)
第3著者氏名（和/英/ヨミ）	渡部晋治 / Shinji Watanabe / ワタナベシンジ
第3著者所属（和/英）	ジョンズ・ホプキンス大学 (略称： JHU) Johns Hopkins University (略称： JHU)
第4著者氏名（和/英/ヨミ）	小川哲司 / Tetsuji Ogawa / オガワテツジ
第4著者所属（和/英）	早稲田大学 (略称：早大) Waseda University (略称： Waseda Univ.)
第5著者氏名（和/英/ヨミ）	小林哲則 / Tetsunori Kobayashi / コバヤシテツノリ
第5著者所属（和/英）	早稲田大学 (略称：早大) Waseda University (略称： Waseda Univ.)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2020-12-02 09:40:00
発表時間	20分
申込先研究会	SP
資料番号	NLC2020-13, SP2020-16
巻番号（vol）	vol.120
号番号（no）	no.270(NLC), no.271(SP)
ページ範囲	pp.1-6
ページ数	6
発行日	2020-11-25 (NLC, SP)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会