講演名 2002/12/12
ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
マルコフ コンスタンテイン, 中村 哲,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) HMMを基にした音声認識ジステムにおいて,音響スペクトラム特徴量以外の,ピッチや性別,調音位置などの情報を用いる事は一般に難しい.一方,動的ベイジアンネットワーク(DBN)は,依存関係の使用により,これら特徴量を容易に結合する事が出来る.しかし,ベイジアンネットワークの為の高速なデコーディングアルゴリズムが不足しており,大規模音声認識システムへの応用が遅れていた.本論文では、この問題をハイブリッドHMM/BN音響モデルにより解決することを試みる。HMMは,時間的な音声特徴のモデル化に用いられ,また,状態確率モデルは,BNにより表現される.本論文で我々は,ハイブリッドHMM/BNモデルを用いたLVCSRシステムの構成法について述べる.HMM/BNモデルにおいて,個々の状態BNは,音響特微量に加えて,話者や性別,ピッチ周波数などの2つ以上の変数を持つ.WSJデータベースを用いた評価実験において,HMM/BNモデルにより,同程度のパラメータ数を持つ従来型HMMと比較して,高い認識率が得られた.
抄録(英) In current HMM based speech recognition systems, it is difficult to supplement acoustic spectrum features with additional information such as pitch, gender, articulator positions, etc. On the other hand, Dynamic Bayesian Networks (DBN) allow for easy combination of different features and make use of conditional dependencies between them. However, lack of efficient algorithms has prevented their application in large vocabulary continuous speech recognition. The hybrid HMM/BN acoustic model, where HMM are used for modeling of temporal speech characteristics and state probability model is represented by BN, provides a trade off solution to the problem. In this paper we describe the HMM/BN acoustic model and LVGSR system built upon this model. In the HMM/BN model, in addition to speech observation variable, state BN has two more discrete variables representing speaker gender and pitch frequency. Evaluation results on WSJ database showed lower word error rate with respect to the same complexity conventional HMM acoustic model when there is enough training data to estimate reliable HMM/BN parameters.
キーワード(和) ハイブリッドHMM/BN / 大語彙音声認識 / ベイジアンネットワーク
キーワード(英) Hybrid HMM/BN / BN / DBN / LVCSR
資料番号 SP2002-128
発行日

研究会情報
研究会 SP
開催期間 2002/12/12(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
サブタイトル(和)
タイトル(英) Large Vocabulary ASR System based on the Hybrid HMM/BN model
サブタイトル(和)
キーワード(1)(和/英) ハイブリッドHMM/BN / Hybrid HMM/BN
キーワード(2)(和/英) 大語彙音声認識 / BN
キーワード(3)(和/英) ベイジアンネットワーク / DBN
第 1 著者 氏名(和/英) マルコフ コンスタンテイン / Konstantin MARKOV
第 1 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Labs.
第 2 著者 氏名(和/英) 中村 哲 / Satoshi NAKAMURA
第 2 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Labs.
発表年月日 2002/12/12
資料番号 SP2002-128
巻番号(vol) vol.102
号番号(no) 529
ページ範囲 pp.-
ページ数 6
発行日