講演名 2007/7/19
音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
塩田 さやか, 橋本 佳, 全 炳河, 南角 吉彦, 李 晃伸, 徳田 恵一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,連続音声認識システムにおける音響モデルとして,コンテキスト,音素環境を考慮したコンテキスト依存モデルが広く利用されている.また,与えられた学習データ量に応じて適切なパラメータ共有構造を得るために,決定木に基づくコンテキストクラスタリングが用いられる.しかし,音素決定木の構築には,あらかじめ推定した状態系列に関する情報が必要となる.一方,隠れマルコフモデル(Hidden Markov Model;HMM)のモデル学習において最適な状態系列を推定する手法として確定的アニーリングEM(Deterministic Annealing Expectation Maximization;DAEM)アルゴリズムが提案されている.しかし,最適な状態系列の推定にはモデルのパラメータ共有構造をあらかじめ決定しておく必要がある.このように,決定木構造と状態系列は,その推定に相互を必要とするため,同時最適化は困難であった.本報告では,これらの問題を解決するために,構造の異なる複数の音素決定木を用いた学習アルゴリズムを提案する.提案法では,複数の木構造を含む確率モデルを定義し,その最適化にDAEMアルゴリズムを適用することにより,複数の木構造を考慮した信頼性の高いモデルパラメータを推定することができる.
抄録(英) This paper proposes a joint optimization technique of phonetic decision trees and state sequences for HMM-based speech recognition. In context-dependent models (i.e., triphone HMMs), the decision tree based context clustering is applied to extract an optimal parameter tying structure given HMM state sequences. On the other hand, the DAEM(Deterministic Annealing Expectation Maximization) algorithm has been proposed to estimate optimal state sequences in the training of HMMs. However, these techniques optimize phonetic decision trees and HMM state sequences independently with keeping the other fixed. To overcome these problems, we propose model structure annealing in which the DAEM algorithm is applied to optimize a probabilistic model including the multiple decision trees as a hidden variable.
キーワード(和) 連続音素認識 / 音響モデル / コンテキストクラスタリング / 音素決定木 / 確定的アニーリング
キーワード(英) Continuous speech recognition / Acoustic modeling / Context clustering / Phonetic decision tree / Deterministic annealing
資料番号 SP2007-35
発行日

研究会情報
研究会 SP
開催期間 2007/7/19(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 音素決定木構造のアニーリングに基づく音響モデリング(聴覚・音声/一般)
サブタイトル(和)
タイトル(英) Acoutstic Modeling Based on Model Structure Annealing for Speech Recognition
サブタイトル(和)
キーワード(1)(和/英) 連続音素認識 / Continuous speech recognition
キーワード(2)(和/英) 音響モデル / Acoustic modeling
キーワード(3)(和/英) コンテキストクラスタリング / Context clustering
キーワード(4)(和/英) 音素決定木 / Phonetic decision tree
キーワード(5)(和/英) 確定的アニーリング / Deterministic annealing
第 1 著者 氏名(和/英) 塩田 さやか / Sayaka SHIOTA
第 1 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
第 2 著者 氏名(和/英) 橋本 佳 / Kei HASHIMOTO
第 2 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
第 3 著者 氏名(和/英) 全 炳河 / Heiga ZEN
第 3 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
第 4 著者 氏名(和/英) 南角 吉彦 / Yoshihiko NANKAKU
第 4 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
第 5 著者 氏名(和/英) 李 晃伸 / Akinobu LEE
第 5 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
第 6 著者 氏名(和/英) 徳田 恵一 / Keiichi TOKUDA
第 6 著者 所属(和/英) 名古屋工業大学大学院工学研究科情報工学専攻
Depertment of Computer Science and Engineering, Nagoya Institute of Technology
発表年月日 2007/7/19
資料番号 SP2007-35
巻番号(vol) vol.107
号番号(no) 165
ページ範囲 pp.-
ページ数 6
発行日