講演名 2004/11/11
感情音声と表情画像を同時に提示した場合のマルチモーダル印象の評価(分析、生成と評価)(音声とコミュニケーション及び一般)
比留間 庸介, 足立 吉広, 森島 繁生,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 人間同士のコミュニケーションにおいて感情のやり取りを行う場合に、発話音声から聞き取られる感情と表情から読み取れる感情は矛盾なく一致して相手に伝えられる。擬人化エージェントにおいては、感情表現技術の未熟さから、必ずしもリアリティが高く感情豊かな表情合成や音声合成が実現できているわけではない。したがって、しばしば受ける印象に違和感が生じる場合がある。そこで本稿では、発話音声に含まれる感情表現と表情動画像に含まれる感情表現に矛盾が生じた場合に、人間の受け取る印象にどのような変化が生じるかを評価することによって、音声に強い影響を受ける感情は何か、画像に強い影響を受ける感情は何かを明らかにすることを試みた。まず評価実験は、自然音声と合成音声を対象として、音声単独での感情聞き取り実験を実施した。次にビデオで収録した感情動画像のみを無音で提示し、評価した。最後に、映像と音声を同時に提示して評価した。その際、映像に同期するように音声の発話速度を制御して、異なる感情の組み合わせで印象がどう変化するかを評価した。
抄録(英) An emotion information is essential in human-human communication. An emotion in speech and that in face are transimitted to others without inconsistency in natural conversation scene. In a life-like agent system. because of immaturity of emotion synthesis technique, a natural synthetic emotional voice and a very realistic emotional facial expression cannot always be realized. So sometimes an impression of emotion becomes unnatural or weak. In this paper, several combination of stimuli between natural emotional voice, synthetic emotional voice and video cantured emotional face are presented to subjects and which modality is more influential in each emotion condition is estimated. In experiment, hearing test for natural voice and synthetic voice is given and then emotional labeling to speech stimuli is performed. Then video captured emotional facial expression is presented without audio and subjective categorization of emotion is performed. And finally, multimodal evaluation is done with several combination of audio and video including inconsistent emotion pair sometimes.
キーワード(和) 擬人化エージェント / 感情音声 / 感情顔画像 / 声質変換 / イントネーション交換 / オーディオビジュアル効果
キーワード(英) Life-like Agent / Emotion Speech / Emotion Face Image / Speech Conversion / Intonation Conversion / Audio Visual Effect
資料番号 HCS2004-23
発行日

研究会情報
研究会 HCS
開催期間 2004/11/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Human Communication Science (HCS)
本文の言語 JPN
タイトル(和) 感情音声と表情画像を同時に提示した場合のマルチモーダル印象の評価(分析、生成と評価)(音声とコミュニケーション及び一般)
サブタイトル(和)
タイトル(英) An evaluation of multimodal impression by presenting an emotional voice and an expression face simultaneously
サブタイトル(和)
キーワード(1)(和/英) 擬人化エージェント / Life-like Agent
キーワード(2)(和/英) 感情音声 / Emotion Speech
キーワード(3)(和/英) 感情顔画像 / Emotion Face Image
キーワード(4)(和/英) 声質変換 / Speech Conversion
キーワード(5)(和/英) イントネーション交換 / Intonation Conversion
キーワード(6)(和/英) オーディオビジュアル効果 / Audio Visual Effect
第 1 著者 氏名(和/英) 比留間 庸介 / Yousuke HIRUMSA
第 1 著者 所属(和/英) 早稲田大学理工学部応用物理学科森島研究室
Science & Engineering, Waseda University
第 2 著者 氏名(和/英) 足立 吉広 / Yoshihiro ADACHI
第 2 著者 所属(和/英) 成蹊大学工学部電気電子工学科情報通信研究室
Faculty of Engineering, Seikei University
第 3 著者 氏名(和/英) 森島 繁生 / Shigeo MORISIMA
第 3 著者 所属(和/英) 早稲田大学理工学部応用物理学科森島研究室
Science & Engineering, Waseda University
発表年月日 2004/11/11
資料番号 HCS2004-23
巻番号(vol) vol.104
号番号(no) 445
ページ範囲 pp.-
ページ数 6
発行日