深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換

田村 哲嗣; 堀尾 健斗; 遠藤 肇; 速水 悟; 戸田 智基

講演名	2018-06-28 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換田村哲嗣(岐阜大), 堀尾健斗(岐阜大), 遠藤肇(岐阜大), 速水悟(岐阜大), 戸田智基(名大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本論文では，雑音下における声質変換の音質向上を目標に，音声と口唇画像を用いるマルチモーダルな統計的声質変換の改善を行った．具体的には，深層学習によるボトルネック特徴量の枠組みを用い，画像特徴量を改良した．さらに，深層正準相関分析を用い，音響特徴量・画像特徴量のさらなる改善を行うとともに，音声と画像のクロスモーダルな変換手法を構築した．雑音下での実験の結果，客観評価，主観評価ともに，提案手法は，音声のみ声質変換，画像のみ声質変換，従来のマルチモーダル声質変換と比べ，十分な音質改善に成功した．
抄録(英)	In this paper, we aim at improving the speech quality in voice conversion and propose a novel multi-modal voice conversion approach using speech waveforms and lip images. We employ deep bottleneck features to improve visual features in audio-visual voice conversion. In addition, we also apply deep canonical correlation analysis to obtain much better audio and visual representations, as well as to build a new cross-modal framework. We conducted subjective and objective evaluations in noisy environments to clarify usefulness of our proposed method, comparing to audio-only, visual-only and conventional audio-visual voice conversion schemes. We then found our method can significantly improve the quality even in heavily noisy conditions.
キーワード(和)	声質変換 / マルチモーダル / オーディオビジュアル / クロスモーダル / 深層学習 / ボトルネック特徴量 / 正準相関分析
キーワード(英)	Voice conversion / multi-modal / audio-visual / cross-modal / deep learning / bottleneck feature / canonical component analysis
資料番号	PRMU2018-24,SP2018-4
発行日	2018-06-21 (PRMU, SP)

研究会情報
研究会	PRMU / SP
開催期間	2018/6/28(から2日開催)
開催地（和）	信州大学
開催地（英）
テーマ（和）	マルチモーダル/クロスモーダルな認識、生成
テーマ（英）
委員長氏名（和）	佐藤真一(NII) / 山下洋一(立命館大)
委員長氏名（英）	Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名（和）	井尻善久(オムロン) / 玉木徹(広島大) / 李晃伸(名工大)
副委員長氏名（英）	Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名（和）	石井雅人(NEC) / 菅野裕介(阪大) / 南條浩輝(京大) / 坂野秀樹(名城大)
幹事氏名（英）	Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名（和）	入江豪(NTT) / 牛久祥孝(東大) / 郡山知樹(東工大) / 小橋川哲(NTT)
幹事補佐氏名（英）	Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語	JPN
タイトル（和）	深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
サブタイトル（和）
タイトル（英）	Multimodal voice conversion using deep bottleneck features and deep canonical correlation analysis
サブタイトル（和）
キーワード(1)（和/英）	声質変換 / Voice conversion
キーワード(2)（和/英）	マルチモーダル / multi-modal
キーワード(3)（和/英）	オーディオビジュアル / audio-visual
キーワード(4)（和/英）	クロスモーダル / cross-modal
キーワード(5)（和/英）	深層学習 / deep learning
キーワード(6)（和/英）	ボトルネック特徴量 / bottleneck feature
キーワード(7)（和/英）	正準相関分析 / canonical component analysis
第 1 著者氏名（和/英）	田村哲嗣 / Satoshi Tamura
第 1 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 2 著者氏名（和/英）	堀尾健斗 / Kento Horio
第 2 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 3 著者氏名（和/英）	遠藤肇 / Hajime Endo
第 3 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 4 著者氏名（和/英）	速水悟 / Satoru Hayamizu
第 4 著者所属（和/英）	岐阜大学(略称：岐阜大) Gifu University(略称：Gifu Univ.)
第 5 著者氏名（和/英）	戸田智基 / Tomoki Toda
第 5 著者所属（和/英）	名古屋大学(略称：名大) Nagoya University(略称：Nagoya Univ.)
発表年月日	2018-06-28
資料番号	PRMU2018-24,SP2018-4
巻番号（vol）	vol.118
号番号（no）	PRMU-111,SP-112
ページ範囲	pp.13-18(PRMU), pp.13-18(SP),
ページ数	6
発行日	2018-06-21 (PRMU, SP)