講演名 | 1998/9/11 EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定 山本 英里, 中村 哲, 鹿野 清宏, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 入力音声から唇の動きなど発話の動画像を合成する手法は、コンピュータエージェントの動きを自然に見せたり聴覚障害者を画像により支援する技術として有用である。音声から唇動画像を合成する方法として、これまでに、音声の隠れマルコフモデル(HMM)を用いてViterbiアライメントを求め、HMMの状態系列から画像パラメータを合成する手法を提案してきた。しかしViterbiアライメントを用いる合成法は入力音声1フレームにつき1つの状態を割り当てるので、HMMの状態割り当て間違いを起こしたとき間違った画像パラメータを合成するという困難を生じる。そこで本稿では、音声と画像のHMMを用いてEMアルゴリズムから非決定論的に画像パラメータを推定する合成法を提案する。EMアルゴリズムによる合成法では、音声と画像の結合確率分布の尤度を最大化するように画像パラメータは繰り返し推定される。 |
抄録(英) | This paper proposes a method to re-estimate output visual parameters for speech-to-lip movement synthesis using audio-visual hidden Markov models(HMMs) under the Expectation-Maximization(EM) algorithm. In a previous work, we have proposed an HMM-Viterbi method estimating a visual parameter sequence from an utterance using audio HMMs. The HMM-Viterbi method produces the output visual parameters per HMM state specified by the decoded HMM states. However, the HMM-Viterbi method involves a substantial problem that the deterministic decoding process assigns a single HMM state for an input audio frame. The deterministic process may output incorrect visual parameters due to incorrect HMM state alignment. The proposed method avoids the deterministic decoding process by the non-deterministic visual parameter estimation by the EM algorithm. The proposed method repeatedly estimates visual parameters while maximizing the likelihood of the audio-visual observation sequence using audio-visual HMMs. |
キーワード(和) | 隠れマルコフモデル / EMアルゴリズム / 動画像合成 / マルチモーダル音声処理 / リップシンク |
キーワード(英) | hidden Markov models / EM algorithm / image sequence synthesis / multimodal speech processing / lip synchronization |
資料番号 | DSP98-86,SP98-65 |
発行日 |
研究会情報 | |
研究会 | DSP |
---|---|
開催期間 | 1998/9/11(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Digital Signal Processing (DSP) |
---|---|
本文の言語 | JPN |
タイトル(和) | EMアルゴリズムを用いたAudio-Visual HMMによる音声からの画像パラメータ推定 |
サブタイトル(和) | |
タイトル(英) | Visual Parameter Estimation from Utterance based on the EM Algorithm using Audio-Visual HMMs |
サブタイトル(和) | |
キーワード(1)(和/英) | 隠れマルコフモデル / hidden Markov models |
キーワード(2)(和/英) | EMアルゴリズム / EM algorithm |
キーワード(3)(和/英) | 動画像合成 / image sequence synthesis |
キーワード(4)(和/英) | マルチモーダル音声処理 / multimodal speech processing |
キーワード(5)(和/英) | リップシンク / lip synchronization |
第 1 著者 氏名(和/英) | 山本 英里 / Eli Yamamoto |
第 1 著者 所属(和/英) | 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology |
第 2 著者 氏名(和/英) | 中村 哲 / Satoshi Nakamura |
第 2 著者 所属(和/英) | 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology |
第 3 著者 氏名(和/英) | 鹿野 清宏 / Kiyohiro Shikano |
第 3 著者 所属(和/英) | 奈良先端科学技術大学院大学情報科学研究科 Graduate School of Information Science, Nara Institute of Science and Technology |
発表年月日 | 1998/9/11 |
資料番号 | DSP98-86,SP98-65 |
巻番号(vol) | vol.98 |
号番号(no) | 262 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |