講演名 2020-03-02
音声認識におけるEncoder-Decoderモデルの注意重みを用いたCTCモデルへの知識蒸留の評価
森谷 崇史(NTT), 佐藤 宏(NTT), 田中 智大(NTT), 芦原 孝典(NTT), 増村 亮(NTT), 篠原 雄介(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究ではConnectionist Temporal Classification(CTC)ベースの音声認識システムの性能改善手法について述べる.CTCはハイブリッド音声認識における音響モデルとEnd-to-End(E2E)音声認識モデルの両方で用いることが可能である.しかしながらCTCは学習データに各ラベルを出力するタイミングの情報が含まれていないため,その正しいタイミングを学習することは困難である.この問題に対して本研究ではCTCをフレームレベルで学習するためのラベル作成方法を提案する.具体的には本研究では注意機構付きEncoder-Decoder(S2S)の注意重みをラベル作成に活用したS2SからCTCへの知識蒸留を提案する.本研究ではこの知識蒸留に用いるラベルを``注意行列''と呼ぶ.注意行列は時間情報を持つ注意重みと対応する各出力ラベルの確率情報を持つベクトルの積和により構成され,S2SからCTCへの知識蒸留の損失計算に用いられる.従って,注意行列はCTCモデルの各出力の確率と生起するタイミングを同時にフレームレベルで学習することが可能となる.提案手法の有効性を確認するために日本語音声認識タスクを用いてCTCベースのE2Eおよびカナ音節ベースの音響モデルを構築し,提案手法により構築したモデルはCTC損失のみで学習したモデルよりもそれぞれ10.2%(E2E)/ 9.4%(音響モデル)の相対誤り改善率を達成した.
抄録(英) We present a novel training approach for connectionist temporal classification (CTC) -based automatic speech recognition (ASR) systems. CTC models are promising for building both the conventional acoustic model and the end-to-end (E2E) ASR model. However, CTC models make it difficult to capture the correct timing of each output label because timing is not given explicitly in the training data. In this paper, we propose a new auxiliary task with frame-wise targets for CTC model enhancement. We utilize attention weights generated by an attention-based encoder-decoder model (S2S) for making the targets, called the attention matrix. The attention matrix is the sum of the products of the attention weights (spike timing information) and the corresponding target vectors (probability information), and used for S2S-to-CTC knowledge distillation loss computation. Therefore, the attention matrix makes the CTC models jointly trainable as regards spike timings and their posteriors. Experiments on Japanese ASR tasks demonstrate that our proposal is effective for CTC model training; it achieves a 10.2% (E2E) / 9.4% (acoustic model) relative reduction in the character/kana-syllable error rates compared to models trained using only CTC loss.
キーワード(和) 音声認識 / ニューラルネットワーク / connectionist temporal classification / 注意重み / 知識蒸留
キーワード(英) automatic speech recognition / neural network / connectionist temporal classification / attention weight / knowledge distillation
資料番号 EA2019-131,SIP2019-133,SP2019-80
発行日 2020-02-24 (EA, SIP, SP)

研究会情報
研究会 SP / EA / SIP
開催期間 2020/3/2(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英)
委員長氏名(和) 河井 恒(NICT) / 古家 賢一(大分大) / 相川 直幸(東京理科大)
委員長氏名(英) Hisashi Kawai(NICT) / Kenichi Furuya(Oita Univ.) / Naoyuki Aikawa(TUS)
副委員長氏名(和) 李 晃伸(名工大) / 島内 末廣(金沢工大) / 武岡 成人(静岡理工科大) / 林 和則(阪市大) / 坂東 幸浩(NTT)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.) / Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / Kazunori Hayashi(Osaka City Univ) / Yukihiro Bandou(NTT)
幹事氏名(和) 南條 浩輝(京大) / 小川 哲司(早大) / 松井 健太郎(NHK) / 小山 翔一(東大) / 中本 昌由(広島大) / 小西 克巳(法政大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.) / Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo) / Masayoshi Nakamoto(Hiroshima Univ.) / Katsumi Konishi(Hosei Univ.)
幹事補佐氏名(和) 郡山 知樹(東大) / 井島 勇祐(NTT) / 井本 桂右(立命館大) / 森川 大輔(富山県立大) / 杉本 憲治郎(早大)
幹事補佐氏名(英) Tomoki Koriyama(Univ. of Tokyo) / Yusuke Ijima(NTT) / Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.) / Kenjiro Sugimoto(Waseda Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語 JPN
タイトル(和) 音声認識におけるEncoder-Decoderモデルの注意重みを用いたCTCモデルへの知識蒸留の評価
サブタイトル(和)
タイトル(英) Performance evaluation of distilling knowledge using encoder-decoder for CTC-based automatic speech recognition systems
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / automatic speech recognition
キーワード(2)(和/英) ニューラルネットワーク / neural network
キーワード(3)(和/英) connectionist temporal classification / connectionist temporal classification
キーワード(4)(和/英) 注意重み / attention weight
キーワード(5)(和/英) 知識蒸留 / knowledge distillation
第 1 著者 氏名(和/英) 森谷 崇史 / Takafumi Moriya
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 2 著者 氏名(和/英) 佐藤 宏 / Hiroshi Sato
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 田中 智大 / Tomohiro Tanaka
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 芦原 孝典 / Takanori Ashihara
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 5 著者 氏名(和/英) 増村 亮 / Ryo Masumura
第 5 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 6 著者 氏名(和/英) 篠原 雄介 / Yusuke Shinohara
第 6 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2020-03-02
資料番号 EA2019-131,SIP2019-133,SP2019-80
巻番号(vol) vol.119
号番号(no) EA-439,SIP-440,SP-441
ページ範囲 pp.175-180(EA), pp.175-180(SIP), pp.175-180(SP),
ページ数 6
発行日 2020-02-24 (EA, SIP, SP)