講演名 2018-06-28
深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
田村 哲嗣(岐阜大), 堀尾 健斗(岐阜大), 遠藤 肇(岐阜大), 速水 悟(岐阜大), 戸田 智基(名大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本論文では,雑音下における声質変換の音質向上を目標に,音声と口唇画像を用いるマルチモーダルな統計的声質変換の改善を行った.具体的には,深層学習によるボトルネック特徴量の枠組みを用い,画像特徴量を改良した.さらに,深層正準相関分析を用い,音響特徴量・画像特徴量のさらなる改善を行うとともに,音声と画像のクロスモーダルな変換手法を構築した.雑音下での実験の結果,客観評価,主観評価ともに,提案手法は,音声のみ声質変換,画像のみ声質変換,従来のマルチモーダル声質変換と比べ,十分な音質改善に成功した.
抄録(英) In this paper, we aim at improving the speech quality in voice conversion and propose a novel multi-modal voice conversion approach using speech waveforms and lip images. We employ deep bottleneck features to improve visual features in audio-visual voice conversion. In addition, we also apply deep canonical correlation analysis to obtain much better audio and visual representations, as well as to build a new cross-modal framework. We conducted subjective and objective evaluations in noisy environments to clarify usefulness of our proposed method, comparing to audio-only, visual-only and conventional audio-visual voice conversion schemes. We then found our method can significantly improve the quality even in heavily noisy conditions.
キーワード(和) 声質変換 / マルチモーダル / オーディオビジュアル / クロスモーダル / 深層学習 / ボトルネック特徴量 / 正準相関分析
キーワード(英) Voice conversion / multi-modal / audio-visual / cross-modal / deep learning / bottleneck feature / canonical component analysis
資料番号 PRMU2018-24,SP2018-4
発行日 2018-06-21 (PRMU, SP)

研究会情報
研究会 PRMU / SP
開催期間 2018/6/28(から2日開催)
開催地(和) 信州大学
開催地(英)
テーマ(和) マルチモーダル/クロスモーダルな認識、生成
テーマ(英)
委員長氏名(和) 佐藤 真一(NII) / 山下 洋一(立命館大)
委員長氏名(英) Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.)
副委員長氏名(和) 井尻 善久(オムロン) / 玉木 徹(広島大) / 李 晃伸(名工大)
副委員長氏名(英) Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.)
幹事氏名(和) 石井 雅人(NEC) / 菅野 裕介(阪大) / 南條 浩輝(京大) / 坂野 秀樹(名城大)
幹事氏名(英) Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.)
幹事補佐氏名(和) 入江 豪(NTT) / 牛久 祥孝(東大) / 郡山 知樹(東工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech
本文の言語 JPN
タイトル(和) 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換
サブタイトル(和)
タイトル(英) Multimodal voice conversion using deep bottleneck features and deep canonical correlation analysis
サブタイトル(和)
キーワード(1)(和/英) 声質変換 / Voice conversion
キーワード(2)(和/英) マルチモーダル / multi-modal
キーワード(3)(和/英) オーディオビジュアル / audio-visual
キーワード(4)(和/英) クロスモーダル / cross-modal
キーワード(5)(和/英) 深層学習 / deep learning
キーワード(6)(和/英) ボトルネック特徴量 / bottleneck feature
キーワード(7)(和/英) 正準相関分析 / canonical component analysis
第 1 著者 氏名(和/英) 田村 哲嗣 / Satoshi Tamura
第 1 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 2 著者 氏名(和/英) 堀尾 健斗 / Kento Horio
第 2 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 3 著者 氏名(和/英) 遠藤 肇 / Hajime Endo
第 3 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 4 著者 氏名(和/英) 速水 悟 / Satoru Hayamizu
第 4 著者 所属(和/英) 岐阜大学(略称:岐阜大)
Gifu University(略称:Gifu Univ.)
第 5 著者 氏名(和/英) 戸田 智基 / Tomoki Toda
第 5 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
発表年月日 2018-06-28
資料番号 PRMU2018-24,SP2018-4
巻番号(vol) vol.118
号番号(no) PRMU-111,SP-112
ページ範囲 pp.13-18(PRMU), pp.13-18(SP),
ページ数 6
発行日 2018-06-21 (PRMU, SP)