講演名 2018-01-21
WaveNetに基づく声質変換の検討
丹羽 純平(名工大), 吉村 建慶(名工大), 橋本 佳(名工大), 大浦 圭一郎(名工大), 南角 吉彦(名工大), 徳田 恵一(名工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,元話者の音響特徴量から目標話者の音声波形を直接生成する,WaveNet に基づく声質変換手法を提案する.統計モデルに基づく声質変換では,元話者と目標話者の音声から抽出されるスペクトルパラメータなどの音響特徴量間の関係をガウス混合モデルやニューラルネットワークのような統計モデルを用いてモデル化を行う.音響特徴量間の関係をモデル化することは効果的であるが,ボコーダのパラメータが中間表現として使用されるため,目標話者の音声波形を予測するのに最適ではないと考えられる.提案法では,この問題を解決するために,元話者の音声波形から抽出された音響特徴量と目標話者の音声波形の関係を WaveNet によりモデル化する.このため,提案法はボコーダを用いることなく,元話者の音響特徴量から変換後の音声波形を直接生成することが可能である.主観評価実験の結果,提案法は従来法から自然性,話者類似性を改善し,有効性を示した.
抄録(英) This paper proposes a voice conversion technique based on WaveNet to directly generate target audio waveforms from acoustic features of a source speaker. In voice conversion based on statistical models, the relation between acoustic features, e.g., spectral parameters, extracted from source and target audio waveforms is modeled by statistical models, such as Gaussian mixture models and neural networks. Although modeling the relation between acoustic features is reasonable and efficient, the model is not optimized for predicting target audio waveforms because the vocoder parameters are used as the intermediate representations of audio waveforms. To overcome this problem, the relation between target audio waveforms and acoustic features extracted from source audio waveforms is modeled by using WaveNet, which is a generative model for audio waveforms, in the proposed method. Therefore, the proposed model can directly generate converted audio waveforms without vocoders. Experimental results indicate that the proposed method improves the naturalness and the speaker similarity of the converted speech from a conventional DNN-based method, and these results clearly show the effectiveness of the proposed method.
キーワード(和) 声質変換 / WaveNet / DNN / 統計モデル
キーワード(英) voice conversion / WaveNet / DNN / statistical model
資料番号 SP2017-84
発行日 2018-01-13 (SP)

研究会情報
研究会 SP / ASJ-H
開催期間 2018/1/20(から2日開催)
開催地(和) 東京大学
開催地(英) The University of Tokyo
テーマ(和) 音声合成,音声コミュニケーション,聴覚,音声一般
テーマ(英)
委員長氏名(和) 山下 洋一(立命館大) / 平原 達也(富山県立大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / 平原 達也(富山県立大)
副委員長氏名(和) 森 大毅(宇都宮大) / 中川 誠司(千葉大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / 中川 誠司(千葉大)
幹事氏名(和) 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事氏名(英) Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事補佐氏名(和) 橋本 佳(名工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Auditory Research Meeting
本文の言語 JPN
タイトル(和) WaveNetに基づく声質変換の検討
サブタイトル(和)
タイトル(英) A study on voice conversion based on WaveNet
サブタイトル(和)
キーワード(1)(和/英) 声質変換 / voice conversion
キーワード(2)(和/英) WaveNet / WaveNet
キーワード(3)(和/英) DNN / DNN
キーワード(4)(和/英) 統計モデル / statistical model
第 1 著者 氏名(和/英) 丹羽 純平 / Jumpei Niwa
第 1 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 2 著者 氏名(和/英) 吉村 建慶 / Takenori Yoshimura
第 2 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 3 著者 氏名(和/英) 橋本 佳 / Kei Hashimoto
第 3 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 4 著者 氏名(和/英) 大浦 圭一郎 / Keiichiro Oura
第 4 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 5 著者 氏名(和/英) 南角 吉彦 / Yoshihiko Nankaku
第 5 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
第 6 著者 氏名(和/英) 徳田 恵一 / Keiichi Tokuda
第 6 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:NIT)
発表年月日 2018-01-21
資料番号 SP2017-84
巻番号(vol) vol.117
号番号(no) SP-393
ページ範囲 pp.99-104(SP),
ページ数 6
発行日 2018-01-13 (SP)