講演名 2022-07-04
深層学習を用いた音声情報による顔画像生成
小関 虎太朗(電通大), 清 雄一(電通大), 田原 康之(電通大), 大須賀 昭彦(電通大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 「音声から顔を生成する」というタスクは,音声通話の在り方に大きな変化をもたらす.音声通話は相手の顔が見えない分Face To Faceでのコミュニケーションと比べて心理的隔たりが生まれてしまう.音声から顔を生成することは音声通話の心理的な隔たりを緩和し,営業電話の獲得率やコールセンターなどの音声通話案内における品質向上などに寄与する.音声と顔画像という異なるデータを用いた機械学習を行う手法にはマルチモーダル学習という手法があり,テキストや画像,音など様々な情報の組み合わせについて研究が行われている.本研究では, CNN畳み込み音声エンコーダと顔画像変分オートエンコーダ(VAE:Variational Autoencoder)によって音声と顔画像に対してマルチモーダル学習を行い,異なるモダリティを持つ音声と顔画像という情報同士を同一の潜在空間で表現する事のできるモデルを作成することによって,音声を入力した際に入力音声に対し尤もらしい顔画像を生成すること事のできる生成モデル作成を目指す.
抄録(英)
キーワード(和) マルチモーダル学習 / 機械学習 / 深層学習 / CNN / VAE
キーワード(英)
資料番号 AI2022-12
発行日 2022-06-27 (AI)

研究会情報
研究会 AI
開催期間 2022/7/4(から1日開催)
開催地(和) 小樽経済センター
開催地(英)
テーマ(和) 「Web/IoTインテリジェンス」および一般
テーマ(英)
委員長氏名(和) 清 雄一(電通大)
委員長氏名(英) Yuichi Sei(Univ. of Electro-Comm.)
副委員長氏名(和) 櫻井 祐子(産総研) / 大囿 忠親(名工大)
副委員長氏名(英) Yuko Sakurai(AIST) / Tadachika Ozono(Nagoya Inst. of Tech.)
幹事氏名(和) 藤田 桂英(東京農工大) / 中島 悠(東邦大)
幹事氏名(英) Katsuhide Fujita(Tokyo Univ. of Agriculture and Technology) / Yuu Nakajima(Toho Univ.)
幹事補佐氏名(和) 松崎 和賢(中大)
幹事補佐氏名(英) Kazutaka Matsuzaki(Chuo Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Artificial Intelligence and Knowledge-Based Processing
本文の言語 JPN
タイトル(和) 深層学習を用いた音声情報による顔画像生成
サブタイトル(和)
タイトル(英) Face image generation with audio information using deep learning
サブタイトル(和)
キーワード(1)(和/英) マルチモーダル学習
キーワード(2)(和/英) 機械学習
キーワード(3)(和/英) 深層学習
キーワード(4)(和/英) CNN
キーワード(5)(和/英) VAE
第 1 著者 氏名(和/英) 小関 虎太朗 / Kotaro Koseki
第 1 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 2 著者 氏名(和/英) 清 雄一 / Yuichi Sei
第 2 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 3 著者 氏名(和/英) 田原 康之 / Yasuyuki Tahara
第 3 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 4 著者 氏名(和/英) 大須賀 昭彦 / Akihiko Ohsuga
第 4 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
発表年月日 2022-07-04
資料番号 AI2022-12
巻番号(vol) vol.122
号番号(no) AI-94
ページ範囲 pp.60-65(AI),
ページ数 6
発行日 2022-06-27 (AI)