講演抄録/キーワード |
講演名 |
2015-12-02 13:55
パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化 ○森谷崇史・田中智大・篠崎隆宏(東工大)・渡部晋治(MERL)・Duh, Kevin(奈良先端大) SP2015-75 |
抄録 |
(和) |
近年Deep Neural Network(DNN)の応用やその他諸技術の進展により音声認識システムの性能が大きく向上している.しかしこれらのシステムは多数の調整パラメタを持ち,実際に高い認識精度を実現するためには専門家による調整が必要となる.調整のための負担は非常に大きく,認識技術の高度化とともにシステムを実現する上での主要なボトルネックとなりつつある.そこで本研究では,進化的戦略を用いて自動的に大語彙音声認識システムを構築する手法を提案する.具体的には,DNNのモデル構造やモデル学習時の学習係数などのメタパラメタを共分散行列適応進化的戦略(CMA-ES)を用いて最適化する.さらに,認識性能だけではなく学習されるモデルのサイズも考慮するため,
多目的最適化手法であるパレート最適とCMA-ESを組み合わせた手法(CMA-ES+P)についても検討する.実験では,提案手法を用いることでベースラインと比べて単語誤り率を0.48%削減したシステムが自動で得られた.また,ベースラインと同等の認識性能を持つDNNを選択した場合,DNNサイズを59%削減できた.本研究で最適化したメタパラメタはKaldiツールキットで公開されているCSJレシピに組み込まれている. |
(英) |
The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). However, when building a high performance speech recognition system, the laborious effort required by human experts in tuning numerous parameters remains a prominent obstacle. In addition, computation time can be prohibitive when training large DNN models. The goal of this paper is to automate the process. We propose to tune DNN-HMM based large vocabulary speech recognition systems using the covariance matrix adaptation evolution strategy (CMA-ES) with a multi-objective Pareto optimization. This optimizes systems to achieve both high-accuracy and compact model size. Compared to a strong manually-tuned configuration borrowed from a similar system, our approach automatically discovered systems with lower WER by 0.48%, and systems with 59% smaller model size while keeping WER constant. The optimized training script is released in the Kaldi speech recognition toolkit as the first publicly available recipe for Japanese large vocabulary speech recognition. |
キーワード |
(和) |
大語彙音声認識 / 進化的戦略 / DNN / 多目的最適化 / / / / |
(英) |
large vocabulary speech recognition / evolution strategy / deep neural network / multi-objective optimization / / / / |
文献情報 |
信学技報, vol. 115, no. 346, SP2015-75, pp. 31-36, 2015年12月. |
資料番号 |
SP2015-75 |
発行日 |
2015-11-25 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
査読に ついて |
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります. |
PDFダウンロード |
SP2015-75 |