講演名 | 2013/12/12 音節単位DNN-HMMによる音声認識の検討(音声認識,第15回音声言語シンポジウム) 関 博史, 中川 聖一, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 近年,音声認識にディープニューラルネットワークを用いることで,従来手法であるGMM-HMMと比較し精度が向上するという結果が多数報告されている.本研究では,3つの年齢層(成人・子供・老人)と性別(男性・女性)に依存した計6クラスの学習データベースを使用し,それぞれ音節単位DNN-HMMを学習した.その結果,従来手法であるGMM-HMMと比較して4クラスで精度の向上が見られた.そして6つのクラスを1つのネットワークで学習することにより,5クラスで精度の向上が見られた.また,直前の音素を考慮した左コンテキスト依存の音節単位DNN-HMMについても検討した.左コンテキスト依存の音節単位DNN-HMMは学習すべきパラメータ数が多いため,学習には多くの時間が必要となる.そこで,状態を「結び」にして学習する方法と学習を高速化するためにRectified Linear Unitを導入した結果も報告する. |
抄録(英) | Recently, Deep Neural Networks have been applied to speech recognition and outperformed the conventional GMM based methods. In this paper, we provide 6 class training sets which depend on gender(male, female) and age(elder, adult, child). We trained each syllable-unit based DNN and it outperformed the baseline GMM-HMM for 4 classes. We also trained one DNN using all 6 class training sets and it outperformed the baseline GMM-HMM for 5 classes. In addition, we considered a left context dependent syllable-unit based DNN-HMM. Modeling context dependent phonemes increases parameters to learn, and needs a lot of time. So we also report results about tied state syllable modeling and use of rectified linear unit to train parameters quickly. |
キーワード(和) | ディープニューラルネットワーク / 音節単位 / HMM / 不特定話者音声認識 |
キーワード(英) | Deep Neural Network / syllable unit / HMM / speaker independent speech recognition |
資料番号 | Vol.2013-SLP-99 No.4 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2013/12/12(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 音節単位DNN-HMMによる音声認識の検討(音声認識,第15回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | Consideration on Syllable-Unit based Deep Neural Network for Speech Recognition |
サブタイトル(和) | |
キーワード(1)(和/英) | ディープニューラルネットワーク / Deep Neural Network |
キーワード(2)(和/英) | 音節単位 / syllable unit |
キーワード(3)(和/英) | HMM / HMM |
キーワード(4)(和/英) | 不特定話者音声認識 / speaker independent speech recognition |
第 1 著者 氏名(和/英) | 関 博史 / Hiroshi Seki |
第 1 著者 所属(和/英) | 豊橋技術科学大学 Toyohashi University of Technology |
第 2 著者 氏名(和/英) | 中川 聖一 / Seiichi Nakagawa |
第 2 著者 所属(和/英) | 豊橋技術科学大学 Toyohashi University of Technology |
発表年月日 | 2013/12/12 |
資料番号 | Vol.2013-SLP-99 No.4 |
巻番号(vol) | vol.113 |
号番号(no) | 366 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |