講演抄録/キーワード |
講演名 |
2018-06-28 15:10
深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換 ○田村哲嗣・堀尾健斗・遠藤 肇・速水 悟(岐阜大)・戸田智基(名大) PRMU2018-24 SP2018-4 |
抄録 |
(和) |
本論文では,雑音下における声質変換の音質向上を目標に,音声と口唇画像を用いるマルチモーダルな統計的声質変換の改善を行った.
具体的には,深層学習によるボトルネック特徴量の枠組みを用い,画像特徴量を改良した.
さらに,深層正準相関分析を用い,音響特徴量・画像特徴量のさらなる改善を行うとともに,音声と画像のクロスモーダルな変換手法を構築した.
雑音下での実験の結果,客観評価,主観評価ともに,提案手法は,音声のみ声質変換,画像のみ声質変換,従来のマルチモーダル声質変換と比べ,十分な音質改善に成功した. |
(英) |
In this paper, we aim at improving the speech quality in voice conversion and propose a novel multi-modal voice conversion approach using speech waveforms and lip images.
We employ deep bottleneck features to improve visual features in audio-visual voice conversion.
In addition, we also apply deep canonical correlation analysis to obtain much better audio and visual representations, as well as to build a new cross-modal framework.
We conducted subjective and objective evaluations in noisy environments to clarify usefulness of our proposed method, comparing to audio-only, visual-only and conventional audio-visual voice conversion schemes.
We then found our method can significantly improve the quality even in heavily noisy conditions. |
キーワード |
(和) |
声質変換 / マルチモーダル / オーディオビジュアル / クロスモーダル / 深層学習 / ボトルネック特徴量 / 正準相関分析 / |
(英) |
Voice conversion / multi-modal / audio-visual / cross-modal / deep learning / bottleneck feature / canonical component analysis / |
文献情報 |
信学技報, vol. 118, no. 112, SP2018-4, pp. 13-18, 2018年6月. |
資料番号 |
SP2018-4 |
発行日 |
2018-06-21 (PRMU, SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
PRMU2018-24 SP2018-4 |