End-to-end音声認識の日本語への適用

伊藤 均; 萩原 愛子; 一木 麻乃; 三島 剛; 佐藤 庄衛; 小林 彰夫

講演名	2016-10-27 End-to-end音声認識の日本語への適用伊藤均(NHK), 萩原愛子(NHK), 一木麻乃(NHK), 三島剛(NHK), 佐藤庄衛(NHK), 小林彰夫(NES),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年，DNN を用いたend-to-end 音声認識に関する研究が盛んに行われている．先行研究の多くはアルファベットなど表音文字が対象であるが，日本語は表意文字である漢字を含み，一つの文字に対して音読み訓読みなどの複数の読みが存在する．このため，日本語の漢字を出力ラベルとするend-to-end 音声認識では，異なる読みの音響特徴量が同じ出力ラベルに分類され，多様性を吸収するためには大量の学習データが必要となる．今回，日本語の文字を出力ラベルとするend-to-end 音声認識の実現に向けて，前後の文字により変化する文字の読みが特定可能な形態素を単位としたラベルを新たに追加する手法を提案する．追加すべき形態素は学習データ内の出現頻度や珍しい読み方をする文字の有無から判断する．文字だけでなく一部の形態素を出力ラベルとしたことで，異なる読みの音響特徴を別のモデルに学習できるようになり，従来手法と比較して音響モデルの学習データが少ない場合の音声認識性能の低下が抑えられることを確認した．
抄録(英)	In this paper, we propose a novel modeling for end-to-end Japanese speech recognition using Deep Neural Networks(DNN). When we deal with kanji as output layer of DNN, different acoustic features are mapped to the same output labels. This problem is caused by that kanji has multiple readings into a single character, such as On-yomi and Kun-yomi. To resolve the problem, We added words to output layer of DNN, instead of characters. The words are selected on the basis of the appearance frequency and the rarity of reading in learning data. Our experimental result shows the effectiveness of suppressing a drop of word accuracy in small learning data.
キーワード(和)	Deep neural networks / コネクショニスト時系列分類法 / End-to-end / 音響モデル
キーワード(英)	Deep neural networks / Connectionist temporal classification / End-to-end / Acoustic model
資料番号	SP2016-47
発行日	2016-10-20 (SP)

研究会情報
研究会	SP
開催期間	2016/10/27(から1日開催)
開催地（和）	静岡大学
開催地（英）	Shizuoka University.
テーマ（和）	学習，認識，合成，対話，音声一般
テーマ（英）	Learning, Recognition, Synthesis, Dialogue, etc.
委員長氏名（和）	間野一則(芝浦工大)
委員長氏名（英）	Kazunori Mano(Shibaura Inst. of Tech.)
副委員長氏名（和）	森大毅(宇都宮大)
副委員長氏名（英）	Hiroki Mori(Utsunomiya Univ.)
幹事氏名（和）	滝口哲也(神戸大) / 西田昌史(静岡大)
幹事氏名（英）	Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.)
幹事補佐氏名（和）	浅見太一(NTT) / 橋本佳(名工大)
幹事補佐氏名（英）	Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech
本文の言語	JPN
タイトル（和）	End-to-end音声認識の日本語への適用
サブタイトル（和）
タイトル（英）	Word modeling for end-to-end Japanese speech recognition
サブタイトル（和）
キーワード(1)（和/英）	Deep neural networks / Deep neural networks
キーワード(2)（和/英）	コネクショニスト時系列分類法 / Connectionist temporal classification
キーワード(3)（和/英）	End-to-end / End-to-end
キーワード(4)（和/英）	音響モデル / Acoustic model
第 1 著者氏名（和/英）	伊藤均 / Hitoshi Ito
第 1 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 2 著者氏名（和/英）	萩原愛子 / Aiko Hagiwara
第 2 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 3 著者氏名（和/英）	一木麻乃 / Manon Ichiki
第 3 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 4 著者氏名（和/英）	三島剛 / Takeshi Mishima
第 4 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 5 著者氏名（和/英）	佐藤庄衛 / Shoei Sato
第 5 著者所属（和/英）	日本放送協会(略称：NHK) Japan Broadcasting Corporation(略称：NHK)
第 6 著者氏名（和/英）	小林彰夫 / Akio Kobayashi
第 6 著者所属（和/英）	NHKエンジニアリングシステム(略称：NES) NHK Engineering System(略称：NES)
発表年月日	2016-10-27
資料番号	SP2016-47
巻番号（vol）	vol.116
号番号（no）	SP-279
ページ範囲	pp.31-36(SP),
ページ数	6
発行日	2016-10-20 (SP)