講演名 2017-03-02
[ポスター講演]利用環境変動に頑健な分岐選択型DNN音響モデルの検討
森谷 崇史(NTT), 浅見 太一(NTT), 山口 義和(NTT), 青野 裕司(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年 Deep Neural Network(DNN)の応用により,音声認識技術が様々な場面で利用されている.しかしながら音声認識システムにおいて高精度な認識結果を得るためには利用する環境ごとに対応した音響モデルを用意しなければならない.また,各音響モデルの学習にはそれぞれの利用環境に応じた大量の学習データと計算時間を必要とするため非常にコストがかかる.そこで本研究では利用する環境の違いに頑健な音響モデルの学習方法を提案する. 具体的には,DNNの入力層を利用環境の数だけ分岐させ,出力層あるいは中間層で分岐を結合することで,各分岐が利用環境ごとに学習できるような DNN音響モデルを構築する.この音響モデルを用いることで,分岐しない DNNと比べて文字正解精度の相対誤り改善率は 9.6%となり,提案する DNN音響モデルの有効性を示した.
抄録(英) The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). Speech recognition system is demanded to high recognition performance with the increase in use scene of itself. However, it needs to prepare acoustic models corresponding to each environment to obtain the best recognition results. Also, to train and make each acoustic model takes a lot of costs that contain preparation of a large amount of training data and computational time for training. The goal of this paper is to obtain an acoustic model that can adapt each environmental speech data and output high recognition results. We propose DNN architecture that is diverged and converged at input, and hidden or output layer respectively. The each pass of diverged DNN architecture is trained by using each environmental speech data, so it has a role for robustness to environmental variation. Compared to no diverged DNN architecture, our proposed DNN architecture improves character accuracy. Its relative error rate is 9.6%.
キーワード(和) 音声認識 / 音響モデル / 耐雑音性 / Deep Neural Network
キーワード(英) Speech Recognition / Acoustic Model / Noise Robustness / Deep Neural Network
資料番号 EA2016-131,SIP2016-186,SP2016-126
発行日 2017-02-22 (EA, SIP, SP)

研究会情報
研究会 SP / SIP / EA
開催期間 2017/3/1(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名(和) 間野 一則(芝浦工大) / 中静 真(千葉工大) / 水町 光徳(九工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大) / 奥田 正浩(北九州市大) / 村松 正吾(新潟大) / 羽田 陽一(電通大) / 島内 末廣(NTT)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大) / 平林 晃(立命館大) / 宮田 高道(千葉工大) / 堀内 俊治(KDDI研) / 渡邉 貫治(秋田県立大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大) / 渡邊 修(拓殖大) / 武岡 成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語 JPN
タイトル(和) [ポスター講演]利用環境変動に頑健な分岐選択型DNN音響モデルの検討
サブタイトル(和)
タイトル(英) [Poster Presentation] Study of branch selecting DNN acoustic model for robustness to environmental variation
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Speech Recognition
キーワード(2)(和/英) 音響モデル / Acoustic Model
キーワード(3)(和/英) 耐雑音性 / Noise Robustness
キーワード(4)(和/英) Deep Neural Network / Deep Neural Network
第 1 著者 氏名(和/英) 森谷 崇史 / Takafumi Moriya
第 1 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 2 著者 氏名(和/英) 浅見 太一 / Taichi Asami
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 山口 義和 / Yoshikazu Yamaguchi
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 青野 裕司 / Yushi Aono
第 4 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2017-03-02
資料番号 EA2016-131,SIP2016-186,SP2016-126
巻番号(vol) vol.116
号番号(no) EA-475,SIP-476,SP-477
ページ範囲 pp.277-282(EA), pp.277-282(SIP), pp.277-282(SP),
ページ数 6
発行日 2017-02-22 (EA, SIP, SP)