講演名 2015-07-16
太刀岡 勇気(三菱電機), 渡部 晋治(MERL), ルルー ジョナトン(MERL), ハーシー ジョン(MERL),
抄録(和) 深層神経回路網(DNN)音響モデルは従来のガウス混合モデル(GMM)を上回る性能を達成しているが,パラメータ数がGMMより多くなることにより,計算コストがGMMよりも増大する.DNNのモデルサイズを縮減するために,特異値分解(SVD)を用いた重み行列の低ランク近似が提案されている.従来の検討はクリーン音声のみであり,ノイズ環境下ではモデル縮減が難しくなる可能性がある.よってこのSVD手法の有効性を騒音残響下音声認識タスクで検証する.加えて,低ランク近似と系列の識別学習を併用する.系列の識別学習はフレーム毎の識別的基準により構築されたDNNの性能を向上させることが知られている.また低ランク近似と系列の識別学習の適用順の影響を調査した.実験により,低ランク近似は騒音下音声認識に有効であり,低ランク近似を先にモデルに適用し,その後に低ランクモデルに対して識別学習を行うと最も効果的であることが分かった.この低ランク識別学習モデルは,モデル縮減しないモデルを識別学習したモデルの性能を上回った.
抄録(英) Deep neural network (DNN) acoustic models outperform conventional Gaussian mixture model (GMM) but the number of parameters tends to be larger, leading to higher computational cost than those of GMM. To reduce the size of a DNN model, low-rank approximations of weight matrices, by using singular value decomposition (SVD), have previously been applied. Previous studies only focused on clean speech, whereas under noisy condition model reduction could be difficult. Thus we investigate the effectiveness of this SVD method on noisy reverberated speech recognition task. Furthermore, we combine the low-rank approximation with sequence discriminative training, which further improved the performance of the DNN, which was constructed using a frame-by-frame discriminative criterion. We also investigated the effect of the order of application of the low-rank and sequence discriminative training. Our experiments show that low rank approximation is effective for noisy speech recognition and the most effective combination of discriminative training with model reduction is to apply the low rank approximation to the base model first and then to perform discriminative training on the low-rank model. This low-rank discriminatively trained model outperformed the full discriminatively trained model.
