音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成

安井,崇朗; 中島,悠太; 馬場口,登

お知らせ 2023年度・2024年度学生員会費割引キャンペーン実施中です
お知らせ技術研究報告と和文論文誌Ｃの同時投稿施策(掲載料1割引き)について
お知らせ電子情報通信学会における研究会開催について
お知らせ NEW 参加費の返金について

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2019-03-18 10:15 音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成 ○安井崇朗・中島悠太・馬場口　登（阪大） BioX2018-53 PRMU2018-157
抄録	（和）	本稿では，入力音声に基づいて対象人物の発話顔を生成する手法を提案する．従来手法では，大量の発話データ（音声信号と映像）を集めることで対象人物の発話顔を生成しており，発話データを大量に収集できない人物に対しては適用できない．そこで本研究では，対象人物の少量の発話データから，入力音声に対応する発話顔画像の生成手法を提案する．提案手法では，対象人物の発話データから音素特徴と口形素特徴を抽出し，それらの共通空間への写像を学習する．その後，共通空間上の音素特徴から対象人物の発話顔を生成するように，敵対的生成ネットワークを学習する．2分以下の発話データを用いた実験により，本手法の有効性を検証する
	（英）	In this paper, we propose to generate talking head given an audio input.Some existing methods generate photorealistic talking head by collecting a large amount of the target speaker's utterance video, but these methods are not applicable when only a small amount of video is available.Our method generates talking head for arbitrary speech of the target speaker with a small amount of utterance video.For doing this, we firstly extract phoneme features and viseme features from utterance video and map these features into a common space.We then train a generative adversarial network (GAN) to generate talking head from the phoneme feature on the common space.These networks are trained with less than 2 min of utterance video.
キーワード	（和）	発話顔生成 / 共通空間表現 / 敵対的生成ネットワーク / / / / /
	（英）	talking head generation / phoneme / viseme / generative adversarial network / / / /
文献情報		信学技報, vol. 118, no. 513, PRMU2018-157, pp. 143-148, 2019年3月.
資料番号		PRMU2018-157
発行日		2019-03-10 (BioX, PRMU)
ISSN		Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		BioX2018-53 PRMU2018-157

研究会情報
研究会	PRMU BioX
開催期間	2019-03-17 - 2019-03-18
開催地（和）	電気通信大学
開催地（英）
テーマ（和）	社会と産業における安全・安心を支える認識・認証技術
テーマ（英）
講演論文情報の詳細
申込み研究会	PRMU
会議コード	2019-03-PRMU-BioX
本文の言語	日本語
タイトル（和）	音素・口形素の特徴表現と敵対的生成ネットワークによる発話顔生成
サブタイトル（和）
タイトル（英）	Talking Head Generation with Deep Phoneme and Viseme Representation and Generative Adversarial Networks
サブタイトル（英）
キーワード(1)（和/英）	発話顔生成 / talking head generation
キーワード(2)（和/英）	共通空間表現 / phoneme
キーワード(3)（和/英）	敵対的生成ネットワーク / viseme
キーワード(4)（和/英）	/ generative adversarial network
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	安井崇朗 / Takaaki Yasui / ヤスイタカアキ
第1著者所属（和/英）	大阪大学 (略称：阪大) Osaka University (略称： Osaka Univ.)
第2著者氏名（和/英/ヨミ）	中島悠太 / Yuta Nakashima / ナカシマユウタ
第2著者所属（和/英）	大阪大学 (略称：阪大) Osaka University (略称： Osaka Univ.)
第3著者氏名（和/英/ヨミ）	馬場口登 / Noboru Babaguchi / ババグチノボル
第3著者所属（和/英）	大阪大学 (略称：阪大) Osaka University (略称： Osaka Univ.)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2019-03-18 10:15:00
発表時間	15分
申込先研究会	PRMU
資料番号	BioX2018-53, PRMU2018-157
巻番号（vol）	vol.118
号番号（no）	no.512(BioX), no.513(PRMU)
ページ範囲	pp.143-148
ページ数	6
発行日	2019-03-10 (BioX, PRMU)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会