講演名 1997/6/19
リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
深田 俊明, アベリン ソフィー, シュースター マイク, 匂坂 芳典,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) リカレント・ニューラル・ネットワークを用いて, 音素などのセグメント境界を推定する方法について述べる. 音素境界の正確な推定は, 音声認識における音響モデル作成や大量データベースを用いた音声合成のための自動セグメンテーション, 音声認識のための前処理などに対して重要な技術である. 音素境界推定のために双方向リカレントニューラルネットワーク(bidrectional recurrent neural network: BRNN)を用いており, 音素境界推定実験の結果から, HMMやMLP(multi-layer perceptron)に基づく方法よりも高い性能が得られた. 更に, BRNNから得られる音素境界推定結果を音声認識システムヘ適用し, (1)音素境界候補の出力値をHMMに基づく認識系に統合することにより認識性能, および計算時間が改善されること, (2)セグメントモデルに基づく認識系の前処理として利用することにより計算量を大幅に削減できることを示す.
抄録(英) This paper describes a phoneme boundary estimation method based on recurrent neural networks (RNNs). The proposed method only requires acoustic observations to accurately estimate segment boundaries. Experimental results showed that the proposed method could estimate segment boundaries significantly better than an HMM or an MLP (multi-layer perceptron) based method. Furthermore, we incorporated the RNN based segment boundary estimator into the HMM based and segment based recognition systems. As a result, we confirmed that (1) the usage of BRNN outputs was effective for improving the recognition rate and reducing computational time in an HMM based recognition system and (2) segment lattices obtained by the proposed methods dramatically reduce the computational complexity of segment model based recognition.
キーワード(和) 音素境界 / リカレントニューラルネットワーク / HMM / セグメントモデル / 音声認識
キーワード(英) phoneme boundary / recurrent neural networks / HMM / segment model / speech recognition
資料番号 SP97-15
発行日

研究会情報
研究会 SP
開催期間 1997/6/19(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
サブタイトル(和)
タイトル(英) Phoneme Boundary Estimation using Recurrent Neural Networks and Its Application to Speech Recognition
サブタイトル(和)
キーワード(1)(和/英) 音素境界 / phoneme boundary
キーワード(2)(和/英) リカレントニューラルネットワーク / recurrent neural networks
キーワード(3)(和/英) HMM / HMM
キーワード(4)(和/英) セグメントモデル / segment model
キーワード(5)(和/英) 音声認識 / speech recognition
第 1 著者 氏名(和/英) 深田 俊明 / Toshiaki Fukada
第 1 著者 所属(和/英) ATR音声翻訳通信研究所
ATR Interpreting Telecommunications Research Laboratories
第 2 著者 氏名(和/英) アベリン ソフィー / Sophie Aveline
第 2 著者 所属(和/英) ATR音声翻訳通信研究所
ATR Interpreting Telecommunications Research Laboratories
第 3 著者 氏名(和/英) シュースター マイク / Mike Schuster
第 3 著者 所属(和/英) ATR音声翻訳通信研究所
ATR Interpreting Telecommunications Research Laboratories
第 4 著者 氏名(和/英) 匂坂 芳典 / Yoshinori Sagisaka
第 4 著者 所属(和/英) ATR音声翻訳通信研究所
ATR Interpreting Telecommunications Research Laboratories
発表年月日 1997/6/19
資料番号 SP97-15
巻番号(vol) vol.97
号番号(no) 114
ページ範囲 pp.-
ページ数 8
発行日