講演名 2019-03-18
音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成
安井 崇朗(阪大), 中島 悠太(阪大), 馬場口 登(阪大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,入力音声に基づいて対象人物の発話顔を生成する手法を提案する.従来手法では,大量の発話データ(音声信号と映像)を集めることで対象人物の発話顔を生成しており,発話データを大量に収集できない人物に対しては適用できない.そこで本研究では,対象人物の少量の発話データから,入力音声に対応する発話顔画像の生成手法を提案する.提案手法では,対象人物の発話データから音素特徴と口形素特徴を抽出し,それらの共通空間への写像を学習する.その後,共通空間上の音素特徴から対象人物の発話顔を生成するように,敵対的生成ネットワークを学習する.2分以下の発話データを用いた実験により,本手法の有効性を検証する
抄録(英) In this paper, we propose to generate talking head given an audio input.Some existing methods generate photorealistic talking head by collecting a large amount of the target speaker's utterance video, but these methods are not applicable when only a small amount of video is available.Our method generates talking head for arbitrary speech of the target speaker with a small amount of utterance video.For doing this, we firstly extract phoneme features and viseme features from utterance video and map these features into a common space.We then train a generative adversarial network (GAN) to generate talking head from the phoneme feature on the common space.These networks are trained with less than 2 min of utterance video.
キーワード(和) 発話顔生成 / 共通空間表現 / 敵対的生成ネットワーク
キーワード(英) talking head generation / phoneme / viseme / generative adversarial network
資料番号 BioX2018-53,PRMU2018-157
発行日 2019-03-10 (BioX, PRMU)

研究会情報
研究会 PRMU / BioX
開催期間 2019/3/17(から2日開催)
開催地(和) 電気通信大学
開催地(英)
テーマ(和) 社会と産業における安全・安心を支える認識・認証技術
テーマ(英)
委員長氏名(和) 佐藤 真一(NII) / 鷲見 和彦(青学大)
委員長氏名(英) Shinichi Sato(NII) / Kazuhiko Sumi(AGU)
副委員長氏名(和) 井尻 善久(オムロン) / 玉木 徹(広島大) / 今岡 仁(NEC) / 大木 哲史(静岡大)
副委員長氏名(英) Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Hitoshi Imaoka(NEC) / Tetsushi Ohki(Shizuoka Univ.)
幹事氏名(和) 石井 雅人(NEC) / 菅野 裕介(阪大) / 青木 隆浩(富士通研) / 市野 将嗣(電通大)
幹事氏名(英) Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Takahiro Aoki(Fujitsu Labs.) / Masatsugu Ichino(Univ. of Electro-Comm.)
幹事補佐氏名(和) 入江 豪(NTT) / 牛久 祥孝(東大) / 奥井 宣広(KDDI総合研究所) / 渡部 大志(埼玉工大)
幹事補佐氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Norihiro Okui(KDDI Research) / Daishi Watabe(Saitama Inst. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Biometrics
本文の言語 JPN
タイトル(和) 音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成
サブタイトル(和)
タイトル(英) Talking Head Generation with Deep Phoneme and Viseme Representation and Generative Adversarial Networks
サブタイトル(和)
キーワード(1)(和/英) 発話顔生成 / talking head generation
キーワード(2)(和/英) 共通空間表現 / phoneme
キーワード(3)(和/英) 敵対的生成ネットワーク / viseme
キーワード(4)(和/英) / generative adversarial network
第 1 著者 氏名(和/英) 安井 崇朗 / Takaaki Yasui
第 1 著者 所属(和/英) 大阪大学(略称:阪大)
Osaka University(略称:Osaka Univ.)
第 2 著者 氏名(和/英) 中島 悠太 / Yuta Nakashima
第 2 著者 所属(和/英) 大阪大学(略称:阪大)
Osaka University(略称:Osaka Univ.)
第 3 著者 氏名(和/英) 馬場口 登 / Noboru Babaguchi
第 3 著者 所属(和/英) 大阪大学(略称:阪大)
Osaka University(略称:Osaka Univ.)
発表年月日 2019-03-18
資料番号 BioX2018-53,PRMU2018-157
巻番号(vol) vol.118
号番号(no) BioX-512,PRMU-513
ページ範囲 pp.143-148(BioX), pp.143-148(PRMU),
ページ数 6
発行日 2019-03-10 (BioX, PRMU)