音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成

安井 崇朗; 中島 悠太; 馬場口 登

講演名	2019-03-18 音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成安井崇朗(阪大), 中島悠太(阪大), 馬場口登(阪大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿では，入力音声に基づいて対象人物の発話顔を生成する手法を提案する．従来手法では，大量の発話データ（音声信号と映像）を集めることで対象人物の発話顔を生成しており，発話データを大量に収集できない人物に対しては適用できない．そこで本研究では，対象人物の少量の発話データから，入力音声に対応する発話顔画像の生成手法を提案する．提案手法では，対象人物の発話データから音素特徴と口形素特徴を抽出し，それらの共通空間への写像を学習する．その後，共通空間上の音素特徴から対象人物の発話顔を生成するように，敵対的生成ネットワークを学習する．2分以下の発話データを用いた実験により，本手法の有効性を検証する
抄録(英)	In this paper, we propose to generate talking head given an audio input.Some existing methods generate photorealistic talking head by collecting a large amount of the target speaker's utterance video, but these methods are not applicable when only a small amount of video is available.Our method generates talking head for arbitrary speech of the target speaker with a small amount of utterance video.For doing this, we firstly extract phoneme features and viseme features from utterance video and map these features into a common space.We then train a generative adversarial network (GAN) to generate talking head from the phoneme feature on the common space.These networks are trained with less than 2 min of utterance video.
キーワード(和)	発話顔生成 / 共通空間表現 / 敵対的生成ネットワーク
キーワード(英)	talking head generation / phoneme / viseme / generative adversarial network
資料番号	BioX2018-53,PRMU2018-157
発行日	2019-03-10 (BioX, PRMU)

研究会情報
研究会	PRMU / BioX
開催期間	2019/3/17(から2日開催)
開催地（和）	電気通信大学
開催地（英）
テーマ（和）	社会と産業における安全・安心を支える認識・認証技術
テーマ（英）
委員長氏名（和）	佐藤真一(NII) / 鷲見和彦(青学大)
委員長氏名（英）	Shinichi Sato(NII) / Kazuhiko Sumi(AGU)
副委員長氏名（和）	井尻善久(オムロン) / 玉木徹(広島大) / 今岡仁(NEC) / 大木哲史(静岡大)
副委員長氏名（英）	Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Hitoshi Imaoka(NEC) / Tetsushi Ohki(Shizuoka Univ.)
幹事氏名（和）	石井雅人(NEC) / 菅野裕介(阪大) / 青木隆浩(富士通研) / 市野将嗣(電通大)
幹事氏名（英）	Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Takahiro Aoki(Fujitsu Labs.) / Masatsugu Ichino(Univ. of Electro-Comm.)
幹事補佐氏名（和）	入江豪(NTT) / 牛久祥孝(東大) / 奥井宣広(KDDI総合研究所) / 渡部大志(埼玉工大)
幹事補佐氏名（英）	Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Norihiro Okui(KDDI Research) / Daishi Watabe(Saitama Inst. of Tech.)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Biometrics
本文の言語	JPN
タイトル（和）	音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成
サブタイトル（和）
タイトル（英）	Talking Head Generation with Deep Phoneme and Viseme Representation and Generative Adversarial Networks
サブタイトル（和）
キーワード(1)（和/英）	発話顔生成 / talking head generation
キーワード(2)（和/英）	共通空間表現 / phoneme
キーワード(3)（和/英）	敵対的生成ネットワーク / viseme
キーワード(4)（和/英）	/ generative adversarial network
第 1 著者氏名（和/英）	安井崇朗 / Takaaki Yasui
第 1 著者所属（和/英）	大阪大学(略称：阪大) Osaka University(略称：Osaka Univ.)
第 2 著者氏名（和/英）	中島悠太 / Yuta Nakashima
第 2 著者所属（和/英）	大阪大学(略称：阪大) Osaka University(略称：Osaka Univ.)
第 3 著者氏名（和/英）	馬場口登 / Noboru Babaguchi
第 3 著者所属（和/英）	大阪大学(略称：阪大) Osaka University(略称：Osaka Univ.)
発表年月日	2019-03-18
資料番号	BioX2018-53,PRMU2018-157
巻番号（vol）	vol.118
号番号（no）	BioX-512,PRMU-513
ページ範囲	pp.143-148(BioX), pp.143-148(PRMU),
ページ数	6
発行日	2019-03-10 (BioX, PRMU)