変分自己符号化器を用いた発話時の動作生成の研究

賈 辰一; 篠田 浩一

講演名	2023-11-17 変分自己符号化器を用いた発話時の動作生成の研究賈辰一(東工大), 篠田浩一(東工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	発話時の動作生成は, 発話音声に対応するジェスチャーを生成する研究である. 従来研究の手法は大きく分けて二つある．決定論的手法は音声と動作の一対一の写像を学習させ, 確率論的手法は音声から動作の生成確率をモデル化する. 前者は確実に音声に忠実な動作を推論することができるが, 一つの音声から一つの動作しか生成しない. 後者は多様な動作生成ができるが、音声に対して忠実でない動作が生成されうる. 本稿では, 確率論的な手法の一つである変分自己符号化器において, 話者のIDを与えた訓練で動作の個人性を学習させ, さらにランダム化の処理を施す手法を提案する. 変分自己符号化器を用いて評価したFIDが52.8%向上し, またより多様な動作生成に成功した.
抄録(英)	Co-speech gesture generation is the study of generating gestures from speech. In prior works, deterministic methods learn a one-to-one mapping between speech and motion, and probabilistic methods model the probability of motions. While the former can infer the motion corresponding to the speech, it only generates one motion. In contrast, the lattercan generate many motions, but it generates motions that don't match the speech. In this paper, we will propose the probabilistic method by training VAE with the speaker's information and randomizing it. Consequently, the fidelity of VAE is improved, and it can generate more diverse motions.
キーワード(和)	発話時動作生成 / 身体動作生成 / 変分自己符号化器 / 事前学習 / スケルトン / グラフ畳み込みニューラルネットワーク
キーワード(英)	Co-speech gesture generation, / Human motion synthesis / Variational auto encoder / Pre-training / Skeleton / Graph Convolutional Neural Network
資料番号	PRMU2023-29
発行日	2023-11-09 (PRMU)

研究会情報
研究会	PRMU / IPSJ-CVIM / IPSJ-DCC / IPSJ-CGVI
開催期間	2023/11/16(から2日開催)
開催地（和）	鳥取県立生涯学習センター（県民ふれあい会館）
開催地（英）
テーマ（和）	人を表現・理解するためのCG/DCC/CV/PR技術
テーマ（英）
委員長氏名（和）	柏野邦夫(NTT)
委員長氏名（英）	Kunio Kashio(NTT)
副委員長氏名（和）	舩冨卓哉(奈良先端大) / 入江豪(東京理科大)
副委員長氏名（英）	Takuya Funatomi(NAIST) / Go Irie(Tokyo Univ. of Science)
幹事氏名（和）	井上中順(東工大) / 川西康友(理研)
幹事氏名（英）	Nakamasa Inoue(Tokyo Inst. of Tech.) / Yasutomo Kawanishi(Riken)
幹事補佐氏名（和）	下西慶(京大) / 原健翔(産総研)
幹事補佐氏名（英）	Kei Shimonishi(Kyoto Univ.) / Kensho Hara(AIST)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Special Interest Group on Computer Vision and Image Media / Special Interest Group on Digital Contents Creation / Special Interest Group on Computer Graphics and Visual Informatics
本文の言語	JPN
タイトル（和）	変分自己符号化器を用いた発話時の動作生成の研究
サブタイトル（和）
タイトル（英）	Co-speech Gesture Generation with Variational Auto Encoder
サブタイトル（和）
キーワード(1)（和/英）	発話時動作生成 / Co-speech gesture generation,
キーワード(2)（和/英）	身体動作生成 / Human motion synthesis
キーワード(3)（和/英）	変分自己符号化器 / Variational auto encoder
キーワード(4)（和/英）	事前学習 / Pre-training
キーワード(5)（和/英）	スケルトン / Skeleton
キーワード(6)（和/英）	グラフ畳み込みニューラルネットワーク / Graph Convolutional Neural Network
第 1 著者氏名（和/英）	賈辰一 / Shihichi Ka
第 1 著者所属（和/英）	東京工業大学(略称：東工大) Tokyo Institute of Technology(略称：Tokyo Tech)
第 2 著者氏名（和/英）	篠田浩一 / Koichi Shinoda
第 2 著者所属（和/英）	東京工業大学(略称：東工大) Tokyo Institute of Technology(略称：Tokyo Tech)
発表年月日	2023-11-17
資料番号	PRMU2023-29
巻番号（vol）	vol.123
号番号（no）	PRMU-266
ページ範囲	pp.74-79(PRMU),
ページ数	6
発行日	2023-11-09 (PRMU)