お知らせ 2023年度・2024年度 学生員 会費割引キャンペーン実施中です
お知らせ 技術研究報告と和文論文誌Cの同時投稿施策(掲載料1割引き)について
お知らせ 電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について
電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
[ログイン]
技報アーカイブ
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2012-07-21 12:00
Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別
久保陽太郎堀 貴明中村 篤NTTSP2012-57
抄録 (和) 2層よりも多くの隠れ層を持つ多層パーセプトロンは局所最適解やプラトーの問題から,有効な解を得ることが困難であったため,従来あまり利用されてこなかった.
しかし近年,教師なしニューラルネットワークの技術を援用した最適化技術等に代表される,多層パーセプトロン学習法(ディープラーニング技術)の進展によって,有効な解を得ることが可能であることが実験的に示され,再注目されてきている.
隠れ層を多数用意することの利点は,単一の隠れ層より複雑な非線形変換をより少ないユニット数で学習できる点にあると言われている.
すなわち,ディープラーニングの技術は音声特徴量を線形識別可能な表現に変換するモデルをより高精度に学習する手法であると考えることができる.
他方では,近年,音声認識のプロセスを線形識別とみなすことで,高精度な音声認識を行なう構造識別と呼ばれる手法も注目を集めている.
これら構造識別法は,出力の直接最適化という面で有望であるが,非線形の特徴変換を前処理として適用しておくことが重要である.
これらを踏まえ,本稿では前処理としての特徴量変換に,多くの隠れ層を持つ多層パーセプトロンを利用し,そのようにして得た線形識別可能な音響特徴量を構造識別モデルで識別することを考える. 
(英) Multilayer perceptrons, which include more than 2 hidden layers, are known to be efficient for modeling of complex classification processes. However, due to the local optima and plateaus in their training objective functions, these perceptrons had not been used in practice.
Recently, a heuristic method that involves the use of initial value obtained by applying unsupervised training of neural networks have enabled the practical use of such perceptrons.
By introducing multiple hidden layers, the total number of needed units to accurately model the nonlinear classification processes would become smaller than that in single hidden layer networks.
Consequently, we can analyze that the main contribution of introducing deep processings is enhancement in feature representations.
On the other hand, an approach called structured classification have been collecting attention of speech researchers since it realizes direct modeling of sequence-to-sequence classification.
However, it is known that the feature transformation is important in this approach since it typically considers the sequence classification as linear classification processes.
In this paper, we attempt to combine these two approaches in order to enhance the both sides; feature representations and label representations.
Specifically, we introduced the structured classification method based on weighted finite-state transducers into the multilayer perceptron-based speech recognition systems.
キーワード (和) 音声認識 / 音声認識構造識別モデル / ディープラーニング / 長時間特徴 / / / /  
(英) Automatic Speech Recognition / Structured Classification / Deep Learning / Temporal Features / / / /  
文献情報 信学技報, vol. 112, no. 141, SP2012-57, pp. 39-44, 2012年7月.
資料番号 SP2012-57 
発行日 2012-07-12 (SP) 
ISSN Print edition: ISSN 0913-5685    Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2012-57

研究会情報
研究会 SP IPSJ-SLP  
開催期間 2012-07-19 - 2012-07-21 
開催地(和) 滝の湯(山形・天童温泉) 
開催地(英) Hotel Takinoyu (Yamagata Pref.) 
テーマ(和) 認識,理解,対話,一般 
テーマ(英) Speech recognition, understanding, dialog, etc. 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2012-07-SP-SLP 
本文の言語 日本語 
タイトル(和) Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別 
サブタイトル(和)  
タイトル(英) WFST-based Structured Classification of Features Extracted by Using Deep Neural Networks 
サブタイトル(英)  
キーワード(1)(和/英) 音声認識 / Automatic Speech Recognition  
キーワード(2)(和/英) 音声認識構造識別モデル / Structured Classification  
キーワード(3)(和/英) ディープラーニング / Deep Learning  
キーワード(4)(和/英) 長時間特徴 / Temporal Features  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 久保 陽太郎 / Yotaro Kubo / クボ ヨウタロウ
第1著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT)
第2著者 氏名(和/英/ヨミ) 堀 貴明 / Takaaki Hori / ホリ タカアキ
第2著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT)
第3著者 氏名(和/英/ヨミ) 中村 篤 / Atsushi Nakamura / ナカムラ アツシ
第3著者 所属(和/英) 日本電信電話株式会社 (略称: NTT)
Nippon Telegraph and Telephone Corporation (略称: NTT)
第4著者 氏名(和/英/ヨミ) / /
第4著者 所属(和/英) (略称: )
(略称: )
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2012-07-21 12:00:00 
発表時間 30分 
申込先研究会 SP 
資料番号 SP2012-57 
巻番号(vol) vol.112 
号番号(no) no.141 
ページ範囲 pp.39-44 
ページ数
発行日 2012-07-12 (SP) 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会