講演抄録/キーワード |
講演名 |
2014-12-16 11:00
話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応 ○柏木陽佑・齋藤大輔・峯松信明・広瀬啓吉(東大) SP2014-118 |
抄録 |
(和) |
近年,自動音声認識において,その高い認識性能により,deep neural network (DNN) を用いた音響モデルが台頭している.しかし,一般に,DNN音響モデルは不特定話者のデータで学習されるため,特徴量の分布が実際の特定話者の分布と大きく異なる.したがって,さらなる認識性能の向上のため,DNN音響モデルの話者適応が注目されている.この内の一つとして,話者コードを用いたDNNの話者適応手法が提案されている.この方法では,話者依存と非依存のネットワークパラメータを別々に学習しており,話者依存/非依存の情報を明確に分離できているとは言えない.一方,話者依存/非依存パラメータの同時推定手法として話者依存層の切り替えによる話者正規化学習も提案されているが,back propagation において話者依存層を切り替える必要があり,学習コストが非常に大きい.そこで,本稿では話者適応の性能向上を目的とした,話者コードをベースとした話者正規化学習と,これを用いた話者適応手法を提案する.話者コードにより話者の情報を制御することで学習時に話者依存の情報と非依存の情報を分け,話者依存/非依存パラメータを同時に学習することにより効果的なネットワークの学習が可能となる.また,話者コードをベースとすることにより,各層のバイアスパラメータを話者コードにより制御することができる.この結果,層のパラメータを切り替える必要がなく,back propagation 時の学習コストの増加を抑えることが可能となる.提案手法の性能をTIMITデータベースを用いた連続音素認識により評価を行い,5.7%の音素認識誤りの削減を実現した. |
(英) |
Recently, deep neural network (DNN) becomes one of the main streams of acoustic modeling for automatic speech recognition. Further, speaker adaptation techniques have been tested for DNN-based speech recognition, including one based on a framework of bias adaptation using speaker codes. This paper introduces speaker-normalized training to this framework and experimentally shows its effectiveness. In the conventional method using speaker codes, two kinds of networks of speaker-independent (SI) DNNs and subnetworks for speaker adaptation were trained sequentially. We expect that, by training the SI networks and the subnetworks simultaneously, this method can be tuned so that it can handle both SI information and speaker-dependent (SD) information more adequately. Further, different from the conventional method, the speaker code vector is generated through networks from a 1-of-$N$ speaker representation. This will reduce the training cost of the SI models and the subnetworks and avoid the over-fitting problem. Experimental evaluations using the TIMIT database demonstrate that our proposed training method can reduce the phoneme error rate by 5.7% relative. |
キーワード |
(和) |
音声認識 / 音響モデル / 話者適応 / 話者正規化学習 / deep neural network / / / |
(英) |
automatic speech recognition / acoutic model / speaker adaptation / speaker normalized training / deep neural network / / / |
文献情報 |
信学技報, vol. 114, no. 365, SP2014-118, pp. 105-110, 2014年12月. |
資料番号 |
SP2014-118 |
発行日 |
2014-12-08 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2014-118 |