講演抄録/キーワード |
講演名 |
2022-07-04 15:20
深層学習を用いた音声情報による顔画像生成 ○小関虎太朗・清 雄一・田原康之・大須賀昭彦(電通大) AI2022-12 |
抄録 |
(和) |
「音声から顔を生成する」というタスクは,音声通話の在り方に大きな変化をもたらす.音声通話は相手の顔が見えない分Face To Faceでのコミュニケーションと比べて心理的隔たりが生まれてしまう.音声から顔を生成することは音声通話の心理的な隔たりを緩和し,営業電話の獲得率やコールセンターなどの音声通話案内における品質向上などに寄与する.
音声と顔画像という異なるデータを用いた機械学習を行う手法にはマルチモーダル学習という手法があり,テキストや画像,音など様々な情報の組み合わせについて研究が行われている.本研究では, CNN畳み込み音声エンコーダと顔画像変分オートエンコーダ(VAE:Variational Autoencoder)によって音声と顔画像に対してマルチモーダル学習を行い,異なるモダリティを持つ音声と顔画像という情報同士を同一の潜在空間で表現する事のできるモデルを作成することによって,音声を入力した際に入力音声に対し尤もらしい顔画像を生成すること事のできる生成モデル作成を目指す. |
(英) |
(Not available yet) |
キーワード |
(和) |
マルチモーダル学習 / 機械学習 / 深層学習 / CNN / VAE / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 122, no. 94, AI2022-12, pp. 60-65, 2022年7月. |
資料番号 |
AI2022-12 |
発行日 |
2022-06-27 (AI) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
AI2022-12 |