お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2014-12-16 11:00
話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応
柏木陽佑齋藤大輔峯松信明広瀬啓吉東大SP2014-118
抄録 (和) 近年,自動音声認識において,その高い認識性能により,deep neural network (DNN) を用いた音響モデルが台頭している.しかし,一般に,DNN音響モデルは不特定話者のデータで学習されるため,特徴量の分布が実際の特定話者の分布と大きく異なる.したがって,さらなる認識性能の向上のため,DNN音響モデルの話者適応が注目されている.この内の一つとして,話者コードを用いたDNNの話者適応手法が提案されている.この方法では,話者依存と非依存のネットワークパラメータを別々に学習しており,話者依存/非依存の情報を明確に分離できているとは言えない.一方,話者依存/非依存パラメータの同時推定手法として話者依存層の切り替えによる話者正規化学習も提案されているが,back propagation において話者依存層を切り替える必要があり,学習コストが非常に大きい.そこで,本稿では話者適応の性能向上を目的とした,話者コードをベースとした話者正規化学習と,これを用いた話者適応手法を提案する.話者コードにより話者の情報を制御することで学習時に話者依存の情報と非依存の情報を分け,話者依存/非依存パラメータを同時に学習することにより効果的なネットワークの学習が可能となる.また,話者コードをベースとすることにより,各層のバイアスパラメータを話者コードにより制御することができる.この結果,層のパラメータを切り替える必要がなく,back propagation 時の学習コストの増加を抑えることが可能となる.提案手法の性能をTIMITデータベースを用いた連続音素認識により評価を行い,5.7%の音素認識誤りの削減を実現した. 
(英) Recently, deep neural network (DNN) becomes one of the main streams of acoustic modeling for automatic speech recognition. Further, speaker adaptation techniques have been tested for DNN-based speech recognition, including one based on a framework of bias adaptation using speaker codes. This paper introduces speaker-normalized training to this framework and experimentally shows its effectiveness. In the conventional method using speaker codes, two kinds of networks of speaker-independent (SI) DNNs and subnetworks for speaker adaptation were trained sequentially. We expect that, by training the SI networks and the subnetworks simultaneously, this method can be tuned so that it can handle both SI information and speaker-dependent (SD) information more adequately. Further, different from the conventional method, the speaker code vector is generated through networks from a 1-of-$N$ speaker representation. This will reduce the training cost of the SI models and the subnetworks and avoid the over-fitting problem. Experimental evaluations using the TIMIT database demonstrate that our proposed training method can reduce the phoneme error rate by 5.7% relative.
キーワード (和) 音声認識 / 音響モデル / 話者適応 / 話者正規化学習 / deep neural network / / /  
(英) automatic speech recognition / acoutic model / speaker adaptation / speaker normalized training / deep neural network / / /  
文献情報 信学技報, vol. 114, no. 365, SP2014-118, pp. 105-110, 2014年12月.
資料番号 SP2014-118 
発行日 2014-12-08 (SP) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2014-118

研究会情報
研究会 NLC IPSJ-NL SP IPSJ-SLP JSAI-SLUD  
開催期間 2014-12-15 - 2014-12-17 
開催地(和) 東工大(すずかけ台) 
開催地(英) Tokyo Institute of Technology (Suzukakedai Campus) 
テーマ(和) 第6回集合知シンポジウム 
テーマ(英) The 6th Symposium on Collective Knowlege 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2014-12-NLC-NL-SP-SLP-SLUD 
本文の言語 日本語 
タイトル(和) 話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応 
サブタイトル(和)  
タイトル(英) Speaker adaptation using speaker-normalized DNN based on speaker codes 
サブタイトル(英)  
キーワード(1)(和/英) 音声認識 / automatic speech recognition  
キーワード(2)(和/英) 音響モデル / acoutic model  
キーワード(3)(和/英) 話者適応 / speaker adaptation  
キーワード(4)(和/英) 話者正規化学習 / speaker normalized training  
キーワード(5)(和/英) deep neural network / deep neural network  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 柏木 陽佑 / Yosuke Kashiwagi / カシワギ ヨウスケ
第1著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第2著者 氏名(和/英/ヨミ) 齋藤 大輔 / Daisuke Saito / サイトウ ダイスケ
第2著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第3著者 氏名(和/英/ヨミ) 峯松 信明 / Nobuaki Minematsu / ミネマツ ノブアキ
第3著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第4著者 氏名(和/英/ヨミ) 広瀬 啓吉 / Keikichi Hirose / ヒロセ ケイキチ
第4著者 所属(和/英) 東京大学 (略称: 東大)
The University of Tokyo (略称: Univ. of Tokyo)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2014-12-16 11:00:00 
発表時間 90分 
申込先研究会 SP 
資料番号 SP2014-118 
巻番号(vol) vol.114 
号番号(no) no.365 
ページ範囲 pp.105-110 
ページ数
発行日 2014-12-08 (SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会