講演抄録/キーワード |
講演名 |
2012-07-21 12:00
Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別 ○久保陽太郎・堀 貴明・中村 篤(NTT) SP2012-57 |
抄録 |
(和) |
2層よりも多くの隠れ層を持つ多層パーセプトロンは局所最適解やプラトーの問題から,有効な解を得ることが困難であったため,従来あまり利用されてこなかった.
しかし近年,教師なしニューラルネットワークの技術を援用した最適化技術等に代表される,多層パーセプトロン学習法(ディープラーニング技術)の進展によって,有効な解を得ることが可能であることが実験的に示され,再注目されてきている.
隠れ層を多数用意することの利点は,単一の隠れ層より複雑な非線形変換をより少ないユニット数で学習できる点にあると言われている.
すなわち,ディープラーニングの技術は音声特徴量を線形識別可能な表現に変換するモデルをより高精度に学習する手法であると考えることができる.
他方では,近年,音声認識のプロセスを線形識別とみなすことで,高精度な音声認識を行なう構造識別と呼ばれる手法も注目を集めている.
これら構造識別法は,出力の直接最適化という面で有望であるが,非線形の特徴変換を前処理として適用しておくことが重要である.
これらを踏まえ,本稿では前処理としての特徴量変換に,多くの隠れ層を持つ多層パーセプトロンを利用し,そのようにして得た線形識別可能な音響特徴量を構造識別モデルで識別することを考える. |
(英) |
Multilayer perceptrons, which include more than 2 hidden layers, are known to be efficient for modeling of complex classification processes. However, due to the local optima and plateaus in their training objective functions, these perceptrons had not been used in practice.
Recently, a heuristic method that involves the use of initial value obtained by applying unsupervised training of neural networks have enabled the practical use of such perceptrons.
By introducing multiple hidden layers, the total number of needed units to accurately model the nonlinear classification processes would become smaller than that in single hidden layer networks.
Consequently, we can analyze that the main contribution of introducing deep processings is enhancement in feature representations.
On the other hand, an approach called structured classification have been collecting attention of speech researchers since it realizes direct modeling of sequence-to-sequence classification.
However, it is known that the feature transformation is important in this approach since it typically considers the sequence classification as linear classification processes.
In this paper, we attempt to combine these two approaches in order to enhance the both sides; feature representations and label representations.
Specifically, we introduced the structured classification method based on weighted finite-state transducers into the multilayer perceptron-based speech recognition systems. |
キーワード |
(和) |
音声認識 / 音声認識構造識別モデル / ディープラーニング / 長時間特徴 / / / / |
(英) |
Automatic Speech Recognition / Structured Classification / Deep Learning / Temporal Features / / / / |
文献情報 |
信学技報, vol. 112, no. 141, SP2012-57, pp. 39-44, 2012年7月. |
資料番号 |
SP2012-57 |
発行日 |
2012-07-12 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2012-57 |
|