講演名 2004/3/18
雑音環境下における合成発話アニメーションの評価(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
前島 謙宣, 四倉 達夫, 森島 繁生, 中村 哲,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 筆者らは、すでに自然な発話アニメーションの合成手法を提案してきた.しかし,その評価は主観評価実験によるところが大きかった.本稿では,発話アニメーションの客観的評価尺度を含む新しい評価手法について提案する.この評価手法では,発話アニメーションの性能は以下の3つの要素によって評価される.読唇が可能か.視覚的に自然か.音声と正確に同期しているか.読唇の可能性は,まず雑音環境下において顔アニメーションと音声とを被験者に提示し,発話単語がどの程度正しく聞き取ることができたかという実験により判断する.次に,発話アニメーションの視覚的な自然さと発話口形変化の滑らかさをMOS5段階評価する.音声との自然な同期に関しては,一定間隔で音声と発話アニメーションとの同期をずらしたものを被験者に提示し,主観的な同期のずれを調査するとともに、違和感の程度を5段階評価によって評価する.加えて,音声と発話アニメーションとの同期のずれが音声の知覚に及ぼす影響についても評価する.以上により,合成された発話アニメーションの品質評価を行い、音声との自然な同期について検証した.
抄録(英) Authors have proposed a synthesis method of natural talking face. However, an evaluation method of talking animation quality is normally based on a subjective test. In this paper, a new evaluation test method of talking face including an objective evaluation is proposed. Quality of talking face will be evaluated by following three factors. Lip reading is possible? Visually natural? Synchronizing with speech? Lip reading quality is evaluated by the rate of correct answer of words when taling face and speech are presented to a subject under acoustically noisy environment and getting a listener's answer about uttered contents of speech. Secondary, visually naturalness of talking face and smoothness of lip movement are evaluated by five-level MOS rating. Finally, talking face and speech signal are presented asynchronously, then a subjective score depending on starting time difference between image and audio track is investigated. The quality of our synthetic talking face is evaluated by these methods and natural synchronization between a synthetic talking face and speech are verified.
キーワード(和) 合成発話顔アニメーション / 雑音環境下 / 数字識別率 / 再現性 / 自然性 / 音声との同期
キーワード(英) Synthetic Talking Face / Acoustically Noisy Enviroments / Digit Discrimination Rate / Representation / Naturalization / Lip-Synchronization
資料番号 HCS2003-66
発行日

研究会情報
研究会 HCS
開催期間 2004/3/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Human Communication Science (HCS)
本文の言語 JPN
タイトル(和) 雑音環境下における合成発話アニメーションの評価(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
サブタイトル(和)
タイトル(英) Subjective Evaluation of Synthetic Utterance Animation in Acoustically Noisy Enviroments
サブタイトル(和)
キーワード(1)(和/英) 合成発話顔アニメーション / Synthetic Talking Face
キーワード(2)(和/英) 雑音環境下 / Acoustically Noisy Enviroments
キーワード(3)(和/英) 数字識別率 / Digit Discrimination Rate
キーワード(4)(和/英) 再現性 / Representation
キーワード(5)(和/英) 自然性 / Naturalization
キーワード(6)(和/英) 音声との同期 / Lip-Synchronization
第 1 著者 氏名(和/英) 前島 謙宣 / Akinobu MAEJIMA
第 1 著者 所属(和/英) 成蹊大学大学院工学研究科:(株)国際電気通信基礎技術研究所音声言語コミュニケーション研究所
Faculty of Engineering, Seikei University:ATR Spoken Language Translation Research Laboratory
第 2 著者 氏名(和/英) 四倉 達夫 / Tatsuo YOTSUKURA
第 2 著者 所属(和/英) (株)国際電気通信基礎技術研究所音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratory
第 3 著者 氏名(和/英) 森島 繁生 / Shigeo MORISHIMA
第 3 著者 所属(和/英) 成蹊大学大学院工学研究科:(株)国際電気通信基礎技術研究所音声言語コミュニケーション研究所
Faculty of Engineering, Seikei University:ATR Spoken Language Translation Research Laboratory
第 4 著者 氏名(和/英) 中村 哲 / Satoshi NAKAMURA
第 4 著者 所属(和/英) (株)国際電気通信基礎技術研究所音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratory
発表年月日 2004/3/18
資料番号 HCS2003-66
巻番号(vol) vol.103
号番号(no) 742
ページ範囲 pp.-
ページ数 6
発行日