講演名 | 1996/3/6 仮想人物との対話を実現するための音声から画像への実時間メディア変換システムの研究 宮下 直也, 佐藤 順, 坂口 竜己, 森島 繁生, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | ヒューマンインタフェースにおける擬人化エージェントの姿形を実現するため、あるいは知的通信の受信側の表示部として人物の表情や会話シーンの合成について研究を進めている。擬人化エージェントとの対応では、あたかも人と人とか直接接しているような高度な現実感をもった環境を実現することが目標であるが、これには、画像と音声とが同期し、相手が真の人物であると思わせるほどの自然な画像合成と実時間での画像表示が必要不可欠である。本稿では、このような擬人化エージェントの実現に向けて、実用に近いプロトタイプシステムを構築することを目指す。人物の顔形状に忠実な3次元モデルを導入して、実際に人物が会話している音声を入力し、この音声の分析結果から口の形状を推定して、リアルタイムに表情 ・口形合成するシステムについて述べる。またこの実時間メディア変換の技術を用いて仮想人物(virtual agent、現時点でagentを操るのは人間)とユーザとの対話をディスプレイ上で行うシステムについても述べる。最後にこのvirtual agentとユーザがインタラクティプにコミュニケーションを実現するために感情音声分析・合成について触れる。 |
抄録(英) | A facial image synthesis to generate a facial expression and conversation scenes is proceeding as the basic research to realize intelligent human interface or communication system. The communication with a virtual personized agent requires a real-time image synthesis and natural motion synthesis as well as synchronization between face image and voice to acheive a virtual face-to-face communication. This paper presents a real-time media conversion system to realize a high quality mouth shape control based on a captured voice signal at video rate. Moreover using this real-time media conversion technique, the system realizing communication between a virtual personized agent and a user in display is mentioned. Finally, to realize the interactive communication between the virtual personized agent and the user, analysis and synthesis of emotion speech is also mentioned. |
キーワード(和) | メディア変換 / ニューラルネットワーク / 感情音声 |
キーワード(英) | Media Conversion / Neural Network / Emotion Speech |
資料番号 | MVE95-62 |
発行日 |
研究会情報 | |
研究会 | MVE |
---|---|
開催期間 | 1996/3/6(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Media Experience and Virtual Environment (MVE) |
---|---|
本文の言語 | JPN |
タイトル(和) | 仮想人物との対話を実現するための音声から画像への実時間メディア変換システムの研究 |
サブタイトル(和) | |
タイトル(英) | A Real-time Media Conversion from Speech to Image for Realizing Communication between Virtual Agent and User |
サブタイトル(和) | |
キーワード(1)(和/英) | メディア変換 / Media Conversion |
キーワード(2)(和/英) | ニューラルネットワーク / Neural Network |
キーワード(3)(和/英) | 感情音声 / Emotion Speech |
第 1 著者 氏名(和/英) | 宮下 直也 / Naoya Miyashita |
第 1 著者 所属(和/英) | 成践大学 Seikei University |
第 2 著者 氏名(和/英) | 佐藤 順 / Jun Sato |
第 2 著者 所属(和/英) | 成践大学 Seikei University |
第 3 著者 氏名(和/英) | 坂口 竜己 / Tatsumi Sakaguchi |
第 3 著者 所属(和/英) | 成践大学 Seikei University |
第 4 著者 氏名(和/英) | 森島 繁生 / Shigeo Morishima |
第 4 著者 所属(和/英) | 成践大学 Seikei University |
発表年月日 | 1996/3/6 |
資料番号 | MVE95-62 |
巻番号(vol) | vol.95 |
号番号(no) | 553 |
ページ範囲 | pp.- |
ページ数 | 8 |
発行日 |