電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2015-12-02 13:55
パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化
森谷崇史田中智大篠崎隆宏東工大)・渡部晋治MERL)・Duh, Kevin奈良先端大
技報オンラインサービス実施中
抄録 (和) 近年Deep Neural Network(DNN)の応用やその他諸技術の進展により音声認識システムの性能が大きく向上している.しかしこれらのシステムは多数の調整パラメタを持ち,実際に高い認識精度を実現するためには専門家による調整が必要となる.調整のための負担は非常に大きく,認識技術の高度化とともにシステムを実現する上での主要なボトルネックとなりつつある.そこで本研究では,進化的戦略を用いて自動的に大語彙音声認識システムを構築する手法を提案する.具体的には,DNNのモデル構造やモデル学習時の学習係数などのメタパラメタを共分散行列適応進化的戦略(CMA-ES)を用いて最適化する.さらに,認識性能だけではなく学習されるモデルのサイズも考慮するため,
多目的最適化手法であるパレート最適とCMA-ESを組み合わせた手法(CMA-ES+P)についても検討する.実験では,提案手法を用いることでベースラインと比べて単語誤り率を0.48%削減したシステムが自動で得られた.また,ベースラインと同等の認識性能を持つDNNを選択した場合,DNNサイズを59%削減できた.本研究で最適化したメタパラメタはKaldiツールキットで公開されているCSJレシピに組み込まれている. 
(英) The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). However, when building a high performance speech recognition system, the laborious effort required by human experts in tuning numerous parameters remains a prominent obstacle. In addition, computation time can be prohibitive when training large DNN models. The goal of this paper is to automate the process. We propose to tune DNN-HMM based large vocabulary speech recognition systems using the covariance matrix adaptation evolution strategy (CMA-ES) with a multi-objective Pareto optimization. This optimizes systems to achieve both high-accuracy and compact model size. Compared to a strong manually-tuned configuration borrowed from a similar system, our approach automatically discovered systems with lower WER by 0.48%, and systems with 59% smaller model size while keeping WER constant. The optimized training script is released in the Kaldi speech recognition toolkit as the first publicly available recipe for Japanese large vocabulary speech recognition.
キーワード (和) 大語彙音声認識 / 進化的戦略 / DNN / 多目的最適化 / / / /  
(英) large vocabulary speech recognition / evolution strategy / deep neural network / multi-objective optimization / / / /  
文献情報 信学技報, vol. 115, no. 346, SP2015-75, pp. 31-36, 2015年12月.
資料番号 SP2015-75 
発行日 2015-11-25 (SP) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
査読に
ついて
本技術報告は査読を経ていない技術報告であり,推敲を加えられていずれかの場に発表されることがあります.

研究会情報
研究会 NLC IPSJ-NL SP IPSJ-SLP  
開催期間 2015-12-02 - 2015-12-04 
開催地(和) 名古屋工業大学 
開催地(英) Nagoya Inst of Tech. 
テーマ(和) 第2回自然言語処理シンポジウム & 第17回音声言語シンポジウム 
テーマ(英) The Second Natural Language Processing Symposium & The 17th Spoken Language Symposium 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2015-12-NLC-NL-SP-SLP 
本文の言語 日本語 
タイトル(和) パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化 
サブタイトル(和)  
タイトル(英) Automation of high performance system building for large vocabulary speech recognition using evolution strategy with pareto optimality 
サブタイトル(英)  
キーワード(1)(和/英) 大語彙音声認識 / large vocabulary speech recognition  
キーワード(2)(和/英) 進化的戦略 / evolution strategy  
キーワード(3)(和/英) DNN / deep neural network  
キーワード(4)(和/英) 多目的最適化 / multi-objective optimization  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 森谷 崇史 / Takafumi Moriya / モリヤ タカフミ
第1著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Tech)
第2著者 氏名(和/英/ヨミ) 田中 智大 / Tomohiro Tanaka / タナカ トモヒロ
第2著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Tech)
第3著者 氏名(和/英/ヨミ) 篠崎 隆宏 / Takahiro Shinozaki / シノザキ タカヒロ
第3著者 所属(和/英) 東京工業大学 (略称: 東工大)
Tokyo Institute of Technology (略称: Tokyo Tech)
第4著者 氏名(和/英/ヨミ) 渡部 晋治 / Shinji Watanabe / ワタナベ シンジ
第4著者 所属(和/英) Mitsubishi Electric Research Laboratories (略称: MERL)
Mitsubishi Electric Research Laboratories (略称: MERL)
第5著者 氏名(和/英/ヨミ) Duh, Kevin / Kevin Duh / Duh, Kevin
第5著者 所属(和/英) 奈良先端科学技術大学院大学 (略称: 奈良先端大)
Nara Institute of Science and Technology (略称: NAIST)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2015-12-02 13:55:00 
発表時間 25 
申込先研究会 SP 
資料番号 IEICE-SP2015-75 
巻番号(vol) IEICE-115 
号番号(no) no.346 
ページ範囲 pp.31-36 
ページ数 IEICE-6 
発行日 IEICE-SP-2015-11-25 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会