EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定

山本 英里; 中村 哲; 鹿野 清宏

講演名	1998/9/11 EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定山本英里, 中村哲, 鹿野清宏,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	入力音声から唇の動きなど発話の動画像を合成する手法は、コンピュータエージェントの動きを自然に見せたり聴覚障害者を画像により支援する技術として有用である。音声から唇動画像を合成する方法として、これまでに、音声の隠れマルコフモデル(HMM)を用いてViterbiアライメントを求め、HMMの状態系列から画像パラメータを合成する手法を提案してきた。しかしViterbiアライメントを用いる合成法は入力音声1フレームにつき1つの状態を割り当てるので、HMMの状態割り当て間違いを起こしたとき間違った画像パラメータを合成するという困難を生じる。そこで本稿では、音声と画像のHMMを用いてEMアルゴリズムから非決定論的に画像パラメータを推定する合成法を提案する。EMアルゴリズムによる合成法では、音声と画像の結合確率分布の尤度を最大化するように画像パラメータは繰り返し推定される。
抄録(英)	This paper proposes a method to re-estimate output visual parameters for speech-to-lip movement synthesis using audio-visual hidden Markov models(HMMs) under the Expectation-Maximization(EM) algorithm. In a previous work, we have proposed an HMM-Viterbi method estimating a visual parameter sequence from an utterance using audio HMMs. The HMM-Viterbi method produces the output visual parameters per HMM state specified by the decoded HMM states. However, the HMM-Viterbi method involves a substantial problem that the deterministic decoding process assigns a single HMM state for an input audio frame. The deterministic process may output incorrect visual parameters due to incorrect HMM state alignment. The proposed method avoids the deterministic decoding process by the non-deterministic visual parameter estimation by the EM algorithm. The proposed method repeatedly estimates visual parameters while maximizing the likelihood of the audio-visual observation sequence using audio-visual HMMs.
キーワード(和)	隠れマルコフモデル / EMアルゴリズム / 動画像合成 / マルチモーダル音声処理 / リップシンク
キーワード(英)	hidden Markov models / EM algorithm / image sequence synthesis / multimodal speech processing / lip synchronization
資料番号	DSP98-86,SP98-65
発行日

研究会情報
研究会	DSP
開催期間	1998/9/11(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Digital Signal Processing (DSP)
本文の言語	JPN
タイトル（和）	EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定
サブタイトル（和）
タイトル（英）	Visual Parameter Estimation from Utterance based on the EM Algorithm using Audio-Visual HMMs
サブタイトル（和）
キーワード(1)（和/英）	隠れマルコフモデル / hidden Markov models
キーワード(2)（和/英）	EMアルゴリズム / EM algorithm
キーワード(3)（和/英）	動画像合成 / image sequence synthesis
キーワード(4)（和/英）	マルチモーダル音声処理 / multimodal speech processing
キーワード(5)（和/英）	リップシンク / lip synchronization
第 1 著者氏名（和/英）	山本英里 / Eli Yamamoto
第 1 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者氏名（和/英）	中村哲 / Satoshi Nakamura
第 2 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者氏名（和/英）	鹿野清宏 / Kiyohiro Shikano
第 3 著者所属（和/英）	奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日	1998/9/11
資料番号	DSP98-86,SP98-65
巻番号（vol）	vol.98
号番号（no）	262
ページ範囲	pp.-
ページ数	6
発行日