講演名 | 2019-03-18 音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成 安井 崇朗(阪大), 中島 悠太(阪大), 馬場口 登(阪大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本稿では,入力音声に基づいて対象人物の発話顔を生成する手法を提案する.従来手法では,大量の発話データ(音声信号と映像)を集めることで対象人物の発話顔を生成しており,発話データを大量に収集できない人物に対しては適用できない.そこで本研究では,対象人物の少量の発話データから,入力音声に対応する発話顔画像の生成手法を提案する.提案手法では,対象人物の発話データから音素特徴と口形素特徴を抽出し,それらの共通空間への写像を学習する.その後,共通空間上の音素特徴から対象人物の発話顔を生成するように,敵対的生成ネットワークを学習する.2分以下の発話データを用いた実験により,本手法の有効性を検証する |
抄録(英) | In this paper, we propose to generate talking head given an audio input.Some existing methods generate photorealistic talking head by collecting a large amount of the target speaker's utterance video, but these methods are not applicable when only a small amount of video is available.Our method generates talking head for arbitrary speech of the target speaker with a small amount of utterance video.For doing this, we firstly extract phoneme features and viseme features from utterance video and map these features into a common space.We then train a generative adversarial network (GAN) to generate talking head from the phoneme feature on the common space.These networks are trained with less than 2 min of utterance video. |
キーワード(和) | 発話顔生成 / 共通空間表現 / 敵対的生成ネットワーク |
キーワード(英) | talking head generation / phoneme / viseme / generative adversarial network |
資料番号 | BioX2018-53,PRMU2018-157 |
発行日 | 2019-03-10 (BioX, PRMU) |
研究会情報 | |
研究会 | PRMU / BioX |
---|---|
開催期間 | 2019/3/17(から2日開催) |
開催地(和) | 電気通信大学 |
開催地(英) | |
テーマ(和) | 社会と産業における安全・安心を支える認識・認証技術 |
テーマ(英) | |
委員長氏名(和) | 佐藤 真一(NII) / 鷲見 和彦(青学大) |
委員長氏名(英) | Shinichi Sato(NII) / Kazuhiko Sumi(AGU) |
副委員長氏名(和) | 井尻 善久(オムロン) / 玉木 徹(広島大) / 今岡 仁(NEC) / 大木 哲史(静岡大) |
副委員長氏名(英) | Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Hitoshi Imaoka(NEC) / Tetsushi Ohki(Shizuoka Univ.) |
幹事氏名(和) | 石井 雅人(NEC) / 菅野 裕介(阪大) / 青木 隆浩(富士通研) / 市野 将嗣(電通大) |
幹事氏名(英) | Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Takahiro Aoki(Fujitsu Labs.) / Masatsugu Ichino(Univ. of Electro-Comm.) |
幹事補佐氏名(和) | 入江 豪(NTT) / 牛久 祥孝(東大) / 奥井 宣広(KDDI総合研究所) / 渡部 大志(埼玉工大) |
幹事補佐氏名(英) | Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Norihiro Okui(KDDI Research) / Daishi Watabe(Saitama Inst. of Tech.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Biometrics |
---|---|
本文の言語 | JPN |
タイトル(和) | 音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成 |
サブタイトル(和) | |
タイトル(英) | Talking Head Generation with Deep Phoneme and Viseme Representation and Generative Adversarial Networks |
サブタイトル(和) | |
キーワード(1)(和/英) | 発話顔生成 / talking head generation |
キーワード(2)(和/英) | 共通空間表現 / phoneme |
キーワード(3)(和/英) | 敵対的生成ネットワーク / viseme |
キーワード(4)(和/英) | / generative adversarial network |
第 1 著者 氏名(和/英) | 安井 崇朗 / Takaaki Yasui |
第 1 著者 所属(和/英) | 大阪大学(略称:阪大) Osaka University(略称:Osaka Univ.) |
第 2 著者 氏名(和/英) | 中島 悠太 / Yuta Nakashima |
第 2 著者 所属(和/英) | 大阪大学(略称:阪大) Osaka University(略称:Osaka Univ.) |
第 3 著者 氏名(和/英) | 馬場口 登 / Noboru Babaguchi |
第 3 著者 所属(和/英) | 大阪大学(略称:阪大) Osaka University(略称:Osaka Univ.) |
発表年月日 | 2019-03-18 |
資料番号 | BioX2018-53,PRMU2018-157 |
巻番号(vol) | vol.118 |
号番号(no) | BioX-512,PRMU-513 |
ページ範囲 | pp.143-148(BioX), pp.143-148(PRMU), |
ページ数 | 6 |
発行日 | 2019-03-10 (BioX, PRMU) |