講演抄録/キーワード |
講演名 |
2020-12-02 09:40
CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識 ○樋口陽祐(早大)・稲熊寛文(京大)・渡部晋治(JHU)・小川哲司・小林哲則(早大) NLC2020-13 SP2020-16 |
抄録 |
(和) |
Connectionist Temporal Classification (CTC)とマスク推定により非自己回帰的なEnd-to-End音声認識モデルを学習し,推論時はCTCの出力をマスク推定により改善することで,推論速度の速いEnd-to-End音声認識を実現することを試みる.従来の高精度なEnd-to-Endモデルは,推論時に系列を自己回帰的に生成するため,目的系列の長さに比例した計算コストを要する.それに対し,非自己回帰的なモデルは複数の記号を並列に出力し,一定の計算コストで系列を生成できるため,推論速度が速く,より実用的な性能を期待できる.本研究では,CTCに基づく非自己回帰的なモデルを構築する.このとき,目的系列の「穴埋め問題」を解くマスク推定と同時学習することで,推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする.複数の音声認識タスクにおいて提案のモデルを評価したところ,推論速度の速い認識(CPUでRTFが0.1以下)が行えることを確認した.また,認識精度はCTCのみで学習したモデルから大幅に向上し,自己回帰的なモデルと同等の性能が得られることを確認した. |
(英) |
We present a fast non-autoregressive (NAR) end-to-end automatic speech recognition (E2E-ASR) framework, which generates a sequence by refining outputs of the connectionist temporal classification (CTC) via mask prediction. Many of the previous studies on E2E-ASR focus on an textit{autoregressive} (AR) model: each output token is generated by conditioning on previously generated tokens, at the cost of requiring as many iterations as the output length. On the other hand, NAR models can simultaneously generate tokens within a constant number of iterations, which results in significant inference time reduction and better suits end-to-end ASR model for real-world scenarios. In this work, we train an E2E-ASR model with joint objectives of CTC and mask prediction. During inference, the greedy CTC output is refined by mask prediction, where errors in the CTC output are recovered by taking account of conditional dependence between output tokens. Experimental results on different speech recognition tasks show that the proposed model achieves fast inference time ($<$0.1 RTF using CPU), outperforming a standard CTC model and achieving competitive results to the AR models. |
キーワード |
(和) |
End-to-End音声認識 / connectionist temporal classification / 非自己回帰モデル / / / / / |
(英) |
end-to-end speech recognition / connectionist temporal classification / non-autoregressive sequence generation / / / / / |
文献情報 |
信学技報, vol. 120, no. 271, SP2020-16, pp. 1-6, 2020年12月. |
資料番号 |
SP2020-16 |
発行日 |
2020-11-25 (NLC, SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
NLC2020-13 SP2020-16 |
|