［ポスター講演］利用環境変動に頑健な分岐選択型DNN音響モデルの検討

森谷 崇史; 浅見 太一; 山口 義和; 青野 裕司

講演名	2017-03-02 ［ポスター講演］利用環境変動に頑健な分岐選択型DNN音響モデルの検討森谷崇史(NTT), 浅見太一(NTT), 山口義和(NTT), 青野裕司(NTT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年 Deep Neural Network(DNN)の応用により，音声認識技術が様々な場面で利用されている.しかしながら音声認識システムにおいて高精度な認識結果を得るためには利用する環境ごとに対応した音響モデルを用意しなければならない.また，各音響モデルの学習にはそれぞれの利用環境に応じた大量の学習データと計算時間を必要とするため非常にコストがかかる.そこで本研究では利用する環境の違いに頑健な音響モデルの学習方法を提案する. 具体的には，DNNの入力層を利用環境の数だけ分岐させ，出力層あるいは中間層で分岐を結合することで，各分岐が利用環境ごとに学習できるような DNN音響モデルを構築する.この音響モデルを用いることで，分岐しない DNNと比べて文字正解精度の相対誤り改善率は 9.6%となり，提案する DNN音響モデルの有効性を示した.
抄録(英)	The performance of speech recognition tasks can be significantly improved by the use of deep neural networks (DNN). Speech recognition system is demanded to high recognition performance with the increase in use scene of itself. However, it needs to prepare acoustic models corresponding to each environment to obtain the best recognition results. Also, to train and make each acoustic model takes a lot of costs that contain preparation of a large amount of training data and computational time for training. The goal of this paper is to obtain an acoustic model that can adapt each environmental speech data and output high recognition results. We propose DNN architecture that is diverged and converged at input, and hidden or output layer respectively. The each pass of diverged DNN architecture is trained by using each environmental speech data, so it has a role for robustness to environmental variation. Compared to no diverged DNN architecture, our proposed DNN architecture improves character accuracy. Its relative error rate is 9.6%.
キーワード(和)	音声認識 / 音響モデル / 耐雑音性 / Deep Neural Network
キーワード(英)	Speech Recognition / Acoustic Model / Noise Robustness / Deep Neural Network
資料番号	EA2016-131,SIP2016-186,SP2016-126
発行日	2017-02-22 (EA, SIP, SP)

研究会情報
研究会	SP / SIP / EA
開催期間	2017/3/1(から2日開催)
開催地（和）	沖縄産業支援センター
開催地（英）	Okinawa Industry Support Center
テーマ（和）	音声，応用／電気音響，信号処理，一般
テーマ（英）	Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名（和）	間野一則(芝浦工大) / 中静真(千葉工大) / 水町光徳(九工大)
委員長氏名（英）	Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名（和）	森大毅(宇都宮大) / 奥田正浩(北九州市大) / 村松正吾(新潟大) / 羽田陽一(電通大) / 島内末廣(NTT)
副委員長氏名（英）	Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名（和）	滝口哲也(神戸大) / 西田昌史(静岡大) / 平林晃(立命館大) / 宮田高道(千葉工大) / 堀内俊治(KDDI研) / 渡邉貫治(秋田県立大)
幹事氏名（英）	Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名（和）	浅見太一(NTT) / 橋本佳(名工大) / 渡邊修(拓殖大) / 武岡成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名（英）	Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語	JPN
タイトル（和）	［ポスター講演］利用環境変動に頑健な分岐選択型DNN音響モデルの検討
サブタイトル（和）
タイトル（英）	[Poster Presentation] Study of branch selecting DNN acoustic model for robustness to environmental variation
サブタイトル（和）
キーワード(1)（和/英）	音声認識 / Speech Recognition
キーワード(2)（和/英）	音響モデル / Acoustic Model
キーワード(3)（和/英）	耐雑音性 / Noise Robustness
キーワード(4)（和/英）	Deep Neural Network / Deep Neural Network
第 1 著者氏名（和/英）	森谷崇史 / Takafumi Moriya
第 1 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
第 2 著者氏名（和/英）	浅見太一 / Taichi Asami
第 2 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
第 3 著者氏名（和/英）	山口義和 / Yoshikazu Yamaguchi
第 3 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
第 4 著者氏名（和/英）	青野裕司 / Yushi Aono
第 4 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
発表年月日	2017-03-02
資料番号	EA2016-131,SIP2016-186,SP2016-126
巻番号（vol）	vol.116
号番号（no）	EA-475,SIP-476,SP-477
ページ範囲	pp.277-282(EA), pp.277-282(SIP), pp.277-282(SP),
ページ数	6
発行日	2017-02-22 (EA, SIP, SP)