講演抄録/キーワード |
講演名 |
2016-10-27 16:00
End-to-end音声認識の日本語への適用 ○伊藤 均・萩原愛子・一木麻乃・三島 剛・佐藤庄衛(NHK)・小林彰夫(NHKエンジニアリングシステム) SP2016-47 |
抄録 |
(和) |
近年,DNN を用いたend-to-end 音声認識に関する研究が盛んに行われている.先行研究の多くはアルファベットなど表音文字が対象であるが,日本語は表意文字である漢字を含み,一つの文字に対して音読み訓読みなどの複数の読みが存在する.このため,日本語の漢字を出力ラベルとするend-to-end 音声認識では,異なる読みの音響特徴量が同じ出力ラベルに分類され,多様性を吸収するためには大量の学習データが必要となる.今回,日本語の文字を出力ラベルとするend-to-end 音声認識の実現に向けて,前後の文字により変化する文字の読みが特定可能な形態素を単位としたラベルを新たに追加する手法を提案する.追加すべき形態素は学習データ内の出現頻度や珍しい読み方をする文字の有無から判断する.文字だけでなく一部の形態素を出力ラベルとしたことで,異なる読みの音響特徴を別のモデルに学習できるようになり,従来手法と比較して音響モデルの学習データが少ない場合の音声認識性能の低下が抑えられることを確認した. |
(英) |
In this paper, we propose a novel modeling for end-to-end Japanese speech recognition using Deep Neural Networks(DNN). When we deal with kanji as output layer of DNN, different acoustic features are mapped to the same output labels. This problem is caused by that kanji has multiple readings into a single character, such as On-yomi and Kun-yomi. To resolve the problem, We added words to output layer of DNN, instead of characters.
The words are selected on the basis of the appearance frequency and the rarity of reading in learning data. Our experimental result shows the effectiveness of suppressing a drop of word accuracy in small learning data. |
キーワード |
(和) |
Deep neural networks / コネクショニスト時系列分類法 / End-to-end / 音響モデル / / / / |
(英) |
Deep neural networks / Connectionist temporal classification / End-to-end / Acoustic model / / / / |
文献情報 |
信学技報, vol. 116, no. 279, SP2016-47, pp. 31-36, 2016年10月. |
資料番号 |
SP2016-47 |
発行日 |
2016-10-20 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2016-47 |