講演名 1996/9/13
砂時計型ニューラルネットによるLPCスペクトルの次元圧縮
伊藤 博紀, 梶田 将司, 武田 一哉, 板倉 文忠,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 中間層の素子数が, 入力層及び出力層の素子数よりも少ない構造を持つ砂時計型ニューラルネットワークを用いて恒等写像学習を行なうことにより, 音響的特徴空間の次元数の削減が実現できる. そこで, 入力層と出力層の素子数が32個で, 中間層の素子数が2~5個である砂時計型ニューラルネットワークに対して, 32次元のLPC対数スペクトルを入力した時に出力が入力と同じになるようにして恒等写像を学習させる. この結果, 学習後の入力と出力のスペクトル歪みは, KL展開による次元圧縮の場合に比べて小さかった. また, 男性話者5名が類似した123都市名を発声したデータを用いてDTW孤立単語認識を行なったところ, 3~5次元に次元圧縮された中間層の出力を特徴ベクトルとして用いたとき, KL展開による次元圧縮の場合に比べて, 認識率が高かった. 従って, ニューラルネットの非線形性を用いた恒等写像による特徴空間の次元圧縮の効果が確認できた.
抄録(英) Reducing the dimension of acoustic feature space is realized using a wine-glass-type neural network, which has the fewer number units in middle layer than the input and output layers, trained for the identity mapping. A wine-glass-type neural network, which has 32 units for both input and output layers and two to five units for the middle layer are trained so as to map the input of 32 dimensional LPC spectrum to the identical output vectors. After neural network is trained, signal to deviation ratio (SDR) of log spectrum is smaller than using KL expansion. Moreover, DTW isolated word recognition experiments are performed using 123 similar city name utterances of a male speaker. Using the output of the middle layer units reduced to 3-5 feature vector, the recognition accuracy are higher than using KL expansion. Therefore the effectiveness of nonlinear identity mapping using neural network for reducing the feature dimension is confirmed.
キーワード(和) 砂時計型ニューラルネット / LPCスペクトル / 恒等写像 / 次元圧縮 / 単語認識
キーワード(英) wine-glass-type neural network / LPC spectrum / identity mapping / dimension reduction / word recognition
資料番号 DSP-96-79,SP-96-54
発行日

研究会情報
研究会 DSP
開催期間 1996/9/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Digital Signal Processing (DSP)
本文の言語 JPN
タイトル(和) 砂時計型ニューラルネットによるLPCスペクトルの次元圧縮
サブタイトル(和)
タイトル(英) Reduction of LPC Spectrum Dimension Using a Wine-Glass-Type Neural Network
サブタイトル(和)
キーワード(1)(和/英) 砂時計型ニューラルネット / wine-glass-type neural network
キーワード(2)(和/英) LPCスペクトル / LPC spectrum
キーワード(3)(和/英) 恒等写像 / identity mapping
キーワード(4)(和/英) 次元圧縮 / dimension reduction
キーワード(5)(和/英) 単語認識 / word recognition
第 1 著者 氏名(和/英) 伊藤 博紀 / Hironori ITO
第 1 著者 所属(和/英) 名古屋大学大学院工学研究科
Graduate School of Engineering, Nagoya University
第 2 著者 氏名(和/英) 梶田 将司 / Shoji KAJITA
第 2 著者 所属(和/英) 名古屋大学大学院工学研究科
Graduate School of Engineering, Nagoya University
第 3 著者 氏名(和/英) 武田 一哉 / Kazuya TAKEDA
第 3 著者 所属(和/英) 名古屋大学大学院工学研究科
Graduate School of Engineering, Nagoya University
第 4 著者 氏名(和/英) 板倉 文忠 / Fumitada ITAKURA
第 4 著者 所属(和/英) 名古屋大学大学院工学研究科
Graduate School of Engineering, Nagoya University
発表年月日 1996/9/13
資料番号 DSP-96-79,SP-96-54
巻番号(vol) vol.96
号番号(no) 239
ページ範囲 pp.-
ページ数 6
発行日