講演名 | 2018-06-28 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換 田村 哲嗣(岐阜大), 堀尾 健斗(岐阜大), 遠藤 肇(岐阜大), 速水 悟(岐阜大), 戸田 智基(名大), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本論文では,雑音下における声質変換の音質向上を目標に,音声と口唇画像を用いるマルチモーダルな統計的声質変換の改善を行った.具体的には,深層学習によるボトルネック特徴量の枠組みを用い,画像特徴量を改良した.さらに,深層正準相関分析を用い,音響特徴量・画像特徴量のさらなる改善を行うとともに,音声と画像のクロスモーダルな変換手法を構築した.雑音下での実験の結果,客観評価,主観評価ともに,提案手法は,音声のみ声質変換,画像のみ声質変換,従来のマルチモーダル声質変換と比べ,十分な音質改善に成功した. |
抄録(英) | In this paper, we aim at improving the speech quality in voice conversion and propose a novel multi-modal voice conversion approach using speech waveforms and lip images. We employ deep bottleneck features to improve visual features in audio-visual voice conversion. In addition, we also apply deep canonical correlation analysis to obtain much better audio and visual representations, as well as to build a new cross-modal framework. We conducted subjective and objective evaluations in noisy environments to clarify usefulness of our proposed method, comparing to audio-only, visual-only and conventional audio-visual voice conversion schemes. We then found our method can significantly improve the quality even in heavily noisy conditions. |
キーワード(和) | 声質変換 / マルチモーダル / オーディオビジュアル / クロスモーダル / 深層学習 / ボトルネック特徴量 / 正準相関分析 |
キーワード(英) | Voice conversion / multi-modal / audio-visual / cross-modal / deep learning / bottleneck feature / canonical component analysis |
資料番号 | PRMU2018-24,SP2018-4 |
発行日 | 2018-06-21 (PRMU, SP) |
研究会情報 | |
研究会 | PRMU / SP |
---|---|
開催期間 | 2018/6/28(から2日開催) |
開催地(和) | 信州大学 |
開催地(英) | |
テーマ(和) | マルチモーダル/クロスモーダルな認識、生成 |
テーマ(英) | |
委員長氏名(和) | 佐藤 真一(NII) / 山下 洋一(立命館大) |
委員長氏名(英) | Shinichi Sato(NII) / Yoichi Yamashita(Ritsumeikan Univ.) |
副委員長氏名(和) | 井尻 善久(オムロン) / 玉木 徹(広島大) / 李 晃伸(名工大) |
副委員長氏名(英) | Yoshihisa Ijiri(Omron) / Toru Tamaki(Hiroshima Univ.) / Akinobu Ri(Nagoya Inst. of Tech.) |
幹事氏名(和) | 石井 雅人(NEC) / 菅野 裕介(阪大) / 南條 浩輝(京大) / 坂野 秀樹(名城大) |
幹事氏名(英) | Masato Ishii(NEC) / Yusuke Sugano(Osaka Univ.) / Hiroaki Nanjo(Kyoto Univ.) / Hideki Banno(Meijo Univ.) |
幹事補佐氏名(和) | 入江 豪(NTT) / 牛久 祥孝(東大) / 郡山 知樹(東工大) / 小橋川 哲(NTT) |
幹事補佐氏名(英) | Go Irie(NTT) / Yoshitaka Ushiku(Univ. of Tokyo) / Tomoki Koriyama(Tokyo Inst. of Tech.) / Satoshi Kobashikawa(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Pattern Recognition and Media Understanding / Technical Committee on Speech |
---|---|
本文の言語 | JPN |
タイトル(和) | 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換 |
サブタイトル(和) | |
タイトル(英) | Multimodal voice conversion using deep bottleneck features and deep canonical correlation analysis |
サブタイトル(和) | |
キーワード(1)(和/英) | 声質変換 / Voice conversion |
キーワード(2)(和/英) | マルチモーダル / multi-modal |
キーワード(3)(和/英) | オーディオビジュアル / audio-visual |
キーワード(4)(和/英) | クロスモーダル / cross-modal |
キーワード(5)(和/英) | 深層学習 / deep learning |
キーワード(6)(和/英) | ボトルネック特徴量 / bottleneck feature |
キーワード(7)(和/英) | 正準相関分析 / canonical component analysis |
第 1 著者 氏名(和/英) | 田村 哲嗣 / Satoshi Tamura |
第 1 著者 所属(和/英) | 岐阜大学(略称:岐阜大) Gifu University(略称:Gifu Univ.) |
第 2 著者 氏名(和/英) | 堀尾 健斗 / Kento Horio |
第 2 著者 所属(和/英) | 岐阜大学(略称:岐阜大) Gifu University(略称:Gifu Univ.) |
第 3 著者 氏名(和/英) | 遠藤 肇 / Hajime Endo |
第 3 著者 所属(和/英) | 岐阜大学(略称:岐阜大) Gifu University(略称:Gifu Univ.) |
第 4 著者 氏名(和/英) | 速水 悟 / Satoru Hayamizu |
第 4 著者 所属(和/英) | 岐阜大学(略称:岐阜大) Gifu University(略称:Gifu Univ.) |
第 5 著者 氏名(和/英) | 戸田 智基 / Tomoki Toda |
第 5 著者 所属(和/英) | 名古屋大学(略称:名大) Nagoya University(略称:Nagoya Univ.) |
発表年月日 | 2018-06-28 |
資料番号 | PRMU2018-24,SP2018-4 |
巻番号(vol) | vol.118 |
号番号(no) | PRMU-111,SP-112 |
ページ範囲 | pp.13-18(PRMU), pp.13-18(SP), |
ページ数 | 6 |
発行日 | 2018-06-21 (PRMU, SP) |