お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2020-12-02 09:40
CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識
樋口陽祐早大)・稲熊寛文京大)・渡部晋治JHU)・小川哲司小林哲則早大NLC2020-13 SP2020-16
抄録 (和) Connectionist Temporal Classification (CTC)とマスク推定により非自己回帰的なEnd-to-End音声認識モデルを学習し,推論時はCTCの出力をマスク推定により改善することで,推論速度の速いEnd-to-End音声認識を実現することを試みる.従来の高精度なEnd-to-Endモデルは,推論時に系列を自己回帰的に生成するため,目的系列の長さに比例した計算コストを要する.それに対し,非自己回帰的なモデルは複数の記号を並列に出力し,一定の計算コストで系列を生成できるため,推論速度が速く,より実用的な性能を期待できる.本研究では,CTCに基づく非自己回帰的なモデルを構築する.このとき,目的系列の「穴埋め問題」を解くマスク推定と同時学習することで,推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする.複数の音声認識タスクにおいて提案のモデルを評価したところ,推論速度の速い認識(CPUでRTFが0.1以下)が行えることを確認した.また,認識精度はCTCのみで学習したモデルから大幅に向上し,自己回帰的なモデルと同等の性能が得られることを確認した. 
(英) We present a fast non-autoregressive (NAR) end-to-end automatic speech recognition (E2E-ASR) framework, which generates a sequence by refining outputs of the connectionist temporal classification (CTC) via mask prediction. Many of the previous studies on E2E-ASR focus on an textit{autoregressive} (AR) model: each output token is generated by conditioning on previously generated tokens, at the cost of requiring as many iterations as the output length. On the other hand, NAR models can simultaneously generate tokens within a constant number of iterations, which results in significant inference time reduction and better suits end-to-end ASR model for real-world scenarios. In this work, we train an E2E-ASR model with joint objectives of CTC and mask prediction. During inference, the greedy CTC output is refined by mask prediction, where errors in the CTC output are recovered by taking account of conditional dependence between output tokens. Experimental results on different speech recognition tasks show that the proposed model achieves fast inference time ($<$0.1 RTF using CPU), outperforming a standard CTC model and achieving competitive results to the AR models.
キーワード (和) End-to-End音声認識 / connectionist temporal classification / 非自己回帰モデル / / / / /  
(英) end-to-end speech recognition / connectionist temporal classification / non-autoregressive sequence generation / / / / /  
文献情報 信学技報, vol. 120, no. 271, SP2020-16, pp. 1-6, 2020年12月.
資料番号 SP2020-16 
発行日 2020-11-25 (NLC, SP) 
ISSN Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード NLC2020-13 SP2020-16

研究会情報
研究会 NLC IPSJ-NL SP IPSJ-SLP  
開催期間 2020-12-02 - 2020-12-03 
開催地(和) オンライン開催 
開催地(英) Online 
テーマ(和) 音声言語および自然言語処理シンポジウム 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2020-12-NLC-NL-SP-SLP 
本文の言語 日本語 
タイトル(和) CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識 
サブタイトル(和)  
タイトル(英) Fast End-to-End Speech Recognition with CTC and Mask Predict 
サブタイトル(英)  
キーワード(1)(和/英) End-to-End音声認識 / end-to-end speech recognition  
キーワード(2)(和/英) connectionist temporal classification / connectionist temporal classification  
キーワード(3)(和/英) 非自己回帰モデル / non-autoregressive sequence generation  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 樋口 陽祐 / Yosuke Higuchi / ヒグチ ヨウスケ
第1著者 所属(和/英) 早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.)
第2著者 氏名(和/英/ヨミ) 稲熊 寛文 / Hirofumi Inaguma / イナグマ ヒロフミ
第2著者 所属(和/英) 京都大学 (略称: 京大)
Kyoto Univeristy (略称: Kyoto Univ.)
第3著者 氏名(和/英/ヨミ) 渡部 晋治 / Shinji Watanabe / ワタナベ シンジ
第3著者 所属(和/英) ジョンズ・ホプキンス大学 (略称: JHU)
Johns Hopkins University (略称: JHU)
第4著者 氏名(和/英/ヨミ) 小川 哲司 / Tetsuji Ogawa / オガワ テツジ
第4著者 所属(和/英) 早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.)
第5著者 氏名(和/英/ヨミ) 小林 哲則 / Tetsunori Kobayashi / コバヤシ テツノリ
第5著者 所属(和/英) 早稲田大学 (略称: 早大)
Waseda University (略称: Waseda Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2020-12-02 09:40:00 
発表時間 20分 
申込先研究会 SP 
資料番号 NLC2020-13, SP2020-16 
巻番号(vol) vol.120 
号番号(no) no.270(NLC), no.271(SP) 
ページ範囲 pp.1-6 
ページ数
発行日 2020-11-25 (NLC, SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会