講演名 2018-07-26
異なる決定木に基づくニューラルネットワーク音響モデルからの知識蒸留
福田 隆(日本IBM), サミュエル トーマス(IBM),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本報告では,ニューラルネットワーク音響モデルの知識蒸留において,異なる決定木を持つ教師ネットワークからの蒸留を行う方法を提案する.教師モデルには,生徒ネットワークと異なる出力層を持つものの認識精度が高いLSTMやVGGを採用し,そこから効果的に知識を蒸留することを目的とする.提案法は,(1)教師と生徒ネットワークの出力層に紐づけられたそれぞれの音素決定木を用いて学習データのアライメントを抽出し,(2)音素間(ノード間)を変換するための混同行列を求めて,教師・生徒間の音素コンテキストの対応関係を決定する.実験では,異なる決定木を持つ教師ネットワークが,生徒ニューラルネットワークの性能改善に貢献することを述べる.Aurora 4を用いた雑音環境下音声認識実験において,ハードラベルのみを用いたニューラル音響モデルの構築と比較して,相対的に9.6%の改善が得られたことを報告する.
抄録(英) This paper proposes a method to transfer acoustic knowledge from teacher network with a different decision tree to a student network. The teacher model has different output layer from the student network but has high recognition performance. In the proposed method, (1) phone alignments are generated from each phoneme context dependent decision tree, which relates to the output layer of the network, and (2) create a confusion matrix representing a relationship of phoneme contexts between teacher's and student's output nodes. In the experiments, we show that the proposed method contributes to the improvement of student network and report that 9.6% relative improvement was obtained by the proposed method over the acoustic model constructed only with hard labels on noisy environment speech recognition task with Aurora 4.
キーワード(和) 音声認識 / 音響モデル / 知識蒸留 / 決定木 / 音素マッピング
キーワード(英) Speech recognition / acoustic model / knowledge distillation / decision tree / phone mapping
資料番号 SP2018-20
発行日 2018-07-19 (SP)

研究会情報
研究会 SP / IPSJ-SLP
開催期間 2018/7/26(から2日開催)
開催地(和) 舘山寺サゴーロイヤルホテル
開催地(英) Sago-Royal-Hotel (Hamamatsu)
テーマ(和) 認識,理解,対話,一般
テーマ(英) Speech recognition and understanding, dialog system, etc.
委員長氏名(和) 山下 洋一(立命館大) / 西村 雅史(静岡大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / Masafumi Nishimura(Shizuoka Univ.)
副委員長氏名(和) 李 晃伸(名工大)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 南條 浩輝(京大) / 坂野 秀樹(名城大) / 福田 隆(日本IBM) / 山岸 順一(NII) / 塩田 さやか(首都大東京) / 俵 直弘(早稲田大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.) / Takashi Fukuda(IBM Japan) / Junichi Yamagishi(NII) / Sayaka Shiota(Tokyo Metropolitan Univ.) / Naohiro Tawara(Waseda Univ.)
幹事補佐氏名(和) 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 異なる決定木に基づくニューラルネットワーク音響モデルからの知識蒸留
サブタイトル(和)
タイトル(英) Knowledge Distillation from Neural Network Based Acoustic Model based on Different Decision Tree
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Speech recognition
キーワード(2)(和/英) 音響モデル / acoustic model
キーワード(3)(和/英) 知識蒸留 / knowledge distillation
キーワード(4)(和/英) 決定木 / decision tree
キーワード(5)(和/英) 音素マッピング / phone mapping
第 1 著者 氏名(和/英) 福田 隆 / Takashi Fukuda
第 1 著者 所属(和/英) 日本IBM株式会社(略称:日本IBM)
IBM Japan(略称:IBM)
第 2 著者 氏名(和/英) サミュエル トーマス / Samuel Thomas
第 2 著者 所属(和/英) IBMワトソン・リサーチ・センター(略称:IBM)
IBM T. J. Watson Research Center(略称:IBM)
発表年月日 2018-07-26
資料番号 SP2018-20
巻番号(vol) vol.118
号番号(no) SP-160
ページ範囲 pp.21-24(SP),
ページ数 4
発行日 2018-07-19 (SP)