お知らせ 研究会の開催と会場に参加される皆様へのお願い(2021年10月開催~)
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2016-10-27 16:00
End-to-end音声認識の日本語への適用
伊藤 均萩原愛子一木麻乃三島 剛佐藤庄衛NHK)・小林彰夫NHKエンジニアリングシステムSP2016-47
抄録 (和) 近年,DNN を用いたend-to-end 音声認識に関する研究が盛んに行われている.先行研究の多くはアルファベットなど表音文字が対象であるが,日本語は表意文字である漢字を含み,一つの文字に対して音読み訓読みなどの複数の読みが存在する.このため,日本語の漢字を出力ラベルとするend-to-end 音声認識では,異なる読みの音響特徴量が同じ出力ラベルに分類され,多様性を吸収するためには大量の学習データが必要となる.今回,日本語の文字を出力ラベルとするend-to-end 音声認識の実現に向けて,前後の文字により変化する文字の読みが特定可能な形態素を単位としたラベルを新たに追加する手法を提案する.追加すべき形態素は学習データ内の出現頻度や珍しい読み方をする文字の有無から判断する.文字だけでなく一部の形態素を出力ラベルとしたことで,異なる読みの音響特徴を別のモデルに学習できるようになり,従来手法と比較して音響モデルの学習データが少ない場合の音声認識性能の低下が抑えられることを確認した. 
(英) In this paper, we propose a novel modeling for end-to-end Japanese speech recognition using Deep Neural Networks(DNN). When we deal with kanji as output layer of DNN, different acoustic features are mapped to the same output labels. This problem is caused by that kanji has multiple readings into a single character, such as On-yomi and Kun-yomi. To resolve the problem, We added words to output layer of DNN, instead of characters.
The words are selected on the basis of the appearance frequency and the rarity of reading in learning data. Our experimental result shows the effectiveness of suppressing a drop of word accuracy in small learning data.
キーワード (和) Deep neural networks / コネクショニスト時系列分類法 / End-to-end / 音響モデル / / / /  
(英) Deep neural networks / Connectionist temporal classification / End-to-end / Acoustic model / / / /  
文献情報 信学技報, vol. 116, no. 279, SP2016-47, pp. 31-36, 2016年10月.
資料番号 SP2016-47 
発行日 2016-10-20 (SP) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2016-47

研究会情報
研究会 SP  
開催期間 2016-10-27 - 2016-10-27 
開催地(和) 静岡大学 
開催地(英) Shizuoka University. 
テーマ(和) 学習,認識,合成,対話,音声一般 
テーマ(英) Learning, Recognition, Synthesis, Dialogue, etc. 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2016-10-SP 
本文の言語 日本語 
タイトル(和) End-to-end音声認識の日本語への適用 
サブタイトル(和)  
タイトル(英) Word modeling for end-to-end Japanese speech recognition 
サブタイトル(英)  
キーワード(1)(和/英) Deep neural networks / Deep neural networks  
キーワード(2)(和/英) コネクショニスト時系列分類法 / Connectionist temporal classification  
キーワード(3)(和/英) End-to-end / End-to-end  
キーワード(4)(和/英) 音響モデル / Acoustic model  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 伊藤 均 / Hitoshi Ito / イトウ ヒトシ
第1著者 所属(和/英) 日本放送協会 (略称: NHK)
Japan Broadcasting Corporation (略称: NHK)
第2著者 氏名(和/英/ヨミ) 萩原 愛子 / Aiko Hagiwara / ハギワラ アイコ
第2著者 所属(和/英) 日本放送協会 (略称: NHK)
Japan Broadcasting Corporation (略称: NHK)
第3著者 氏名(和/英/ヨミ) 一木 麻乃 / Manon Ichiki / イチキ マノン
第3著者 所属(和/英) 日本放送協会 (略称: NHK)
Japan Broadcasting Corporation (略称: NHK)
第4著者 氏名(和/英/ヨミ) 三島 剛 / Takeshi Mishima / ミシマ タケシ
第4著者 所属(和/英) 日本放送協会 (略称: NHK)
Japan Broadcasting Corporation (略称: NHK)
第5著者 氏名(和/英/ヨミ) 佐藤 庄衛 / Shoei Sato / サトウ ショウエイ
第5著者 所属(和/英) 日本放送協会 (略称: NHK)
Japan Broadcasting Corporation (略称: NHK)
第6著者 氏名(和/英/ヨミ) 小林 彰夫 / Akio Kobayashi /
第6著者 所属(和/英) NHKエンジニアリングシステム (略称: NHKエンジニアリングシステム)
NHK Engineering System (略称: NES)
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2016-10-27 16:00:00 
発表時間 25 
申込先研究会 SP 
資料番号 IEICE-SP2016-47 
巻番号(vol) IEICE-116 
号番号(no) no.279 
ページ範囲 pp.31-36 
ページ数 IEICE-6 
発行日 IEICE-SP-2016-10-20 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会