講演抄録/キーワード |
講演名 |
2019-03-18 10:15
音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成 ○安井崇朗・中島悠太・馬場口 登(阪大) BioX2018-53 PRMU2018-157 |
抄録 |
(和) |
本稿では,入力音声に基づいて対象人物の発話顔を生成する手法を提案する.従来手法では,大量の発話データ(音声信号と映像)を集めることで対象人物の発話顔を生成しており,発話データを大量に収集できない人物に対しては適用できない.そこで本研究では,対象人物の少量の発話データから,入力音声に対応する発話顔画像の生成手法を提案する.提案手法では,対象人物の発話データから音素特徴と口形素特徴を抽出し,それらの共通空間への写像を学習する.その後,共通空間上の音素特徴から対象人物の発話顔を生成するように,敵対的生成ネットワークを学習する.2分以下の発話データを用いた実験により,本手法の有効性を検証する |
(英) |
In this paper, we propose to generate talking head given an audio input.Some existing methods generate photorealistic talking head by collecting a large amount of the target speaker's utterance video, but these methods are not applicable when only a small amount of video is available.Our method generates talking head for arbitrary speech of the target speaker with a small amount of utterance video.For doing this, we firstly extract phoneme features and viseme features from utterance video and map these features into a common space.We then train a generative adversarial network (GAN) to generate talking head from the phoneme feature on the common space.These networks are trained with less than 2 min of utterance video. |
キーワード |
(和) |
発話顔生成 / 共通空間表現 / 敵対的生成ネットワーク / / / / / |
(英) |
talking head generation / phoneme / viseme / generative adversarial network / / / / |
文献情報 |
信学技報, vol. 118, no. 513, PRMU2018-157, pp. 143-148, 2019年3月. |
資料番号 |
PRMU2018-157 |
発行日 |
2019-03-10 (BioX, PRMU) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
BioX2018-53 PRMU2018-157 |
研究会情報 |
研究会 |
PRMU BioX |
開催期間 |
2019-03-17 - 2019-03-18 |
開催地(和) |
電気通信大学 |
開催地(英) |
|
テーマ(和) |
社会と産業における安全・安心を支える認識・認証技術 |
テーマ(英) |
|
講演論文情報の詳細 |
申込み研究会 |
PRMU |
会議コード |
2019-03-PRMU-BioX |
本文の言語 |
日本語 |
タイトル(和) |
音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成 |
サブタイトル(和) |
|
タイトル(英) |
Talking Head Generation with Deep Phoneme and Viseme Representation and Generative Adversarial Networks |
サブタイトル(英) |
|
キーワード(1)(和/英) |
発話顔生成 / talking head generation |
キーワード(2)(和/英) |
共通空間表現 / phoneme |
キーワード(3)(和/英) |
敵対的生成ネットワーク / viseme |
キーワード(4)(和/英) |
/ generative adversarial network |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
安井 崇朗 / Takaaki Yasui / ヤスイ タカアキ |
第1著者 所属(和/英) |
大阪大学 (略称: 阪大)
Osaka University (略称: Osaka Univ.) |
第2著者 氏名(和/英/ヨミ) |
中島 悠太 / Yuta Nakashima / ナカシマ ユウタ |
第2著者 所属(和/英) |
大阪大学 (略称: 阪大)
Osaka University (略称: Osaka Univ.) |
第3著者 氏名(和/英/ヨミ) |
馬場口 登 / Noboru Babaguchi / ババグチ ノボル |
第3著者 所属(和/英) |
大阪大学 (略称: 阪大)
Osaka University (略称: Osaka Univ.) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2019-03-18 10:15:00 |
発表時間 |
15分 |
申込先研究会 |
PRMU |
資料番号 |
BioX2018-53, PRMU2018-157 |
巻番号(vol) |
vol.118 |
号番号(no) |
no.512(BioX), no.513(PRMU) |
ページ範囲 |
pp.143-148 |
ページ数 |
6 |
発行日 |
2019-03-10 (BioX, PRMU) |