講演名 2018-01-21
メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用
吉村 建慶(名工大), 橋本 佳(名工大), 大浦 圭一郎(名工大), 南角 吉彦(名工大), 徳田 恵一(名工大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 統計的アプローチに基づく音声合成においては,音声波形からメルケプストラムなどの音響特徴量を抽出し,抽出した音響特徴量をモデル化する手法が広く研究されてきた.一方で,最近,WaveNetのようにニューラルネットワークを用いて音声波形を直接モデル化する手法が提案され,音響特徴量をモデル化する手法を凌ぐ性能が示されている.音声波形を直接モデル化する手法においては,音声波形のモデル化を回帰問題ではなく分類問題として捉えるため,音声波形に対して量子化が行われる.しかし,量子化を行うことにより発生する量子化ノイズが白色であるため,量子化ノイズの特に高域の周波数成分が知覚されやすいという問題があった.この問題に対して,本稿では,メルケプストラムに基づくプリフィルタリングおよびノイズシェーピング量子化法を適用する.プリフィルタリングおよびノイズシェーピングの操作はメルケプストラムを介して行うため,これらの効果は人間の聴覚特性に合ったものとなっており,量子化ノイズが音声によって効率良くマスクされることが期待される.WaveNetを用いた評価実験の結果,提案法によって合成音声の品質が大幅に向上することが示された.
抄録(英) This paper proposes a mel-cepstrum based quantization noise shaping for improving the quality of synthetic speech generated by neural network based speech waveform synthesis systems. Since mel-cepstral coefficients closely match the characteristics of human auditory perception, it is expected that the proposed method effectively masks the white noise introduced by the quantization typically used in neural network based speech waveform synthesis systems. The paper also describes a mel-cepstrum based prefiltering to further mask the quantization noise. Experiments using the WaveNet generative model showed that speech quality is significantly improved by the proposed method.
キーワード(和) 音声合成 / ノイズシェーピング / 量子化 / メルケプストラム / WaveNet
キーワード(英) speech synthesis / noise shaping / quantization / mel-cepstrum / WaveNet
資料番号 SP2017-83
発行日 2018-01-13 (SP)

研究会情報
研究会 SP / ASJ-H
開催期間 2018/1/20(から2日開催)
開催地(和) 東京大学
開催地(英) The University of Tokyo
テーマ(和) 音声合成,音声コミュニケーション,聴覚,音声一般
テーマ(英)
委員長氏名(和) 山下 洋一(立命館大) / 平原 達也(富山県立大)
委員長氏名(英) Yoichi Yamashita(Ritsumeikan Univ.) / 平原 達也(富山県立大)
副委員長氏名(和) 森 大毅(宇都宮大) / 中川 誠司(千葉大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / 中川 誠司(千葉大)
幹事氏名(和) 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事氏名(英) Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷 俊介(北陸大) / 山川 仁子(尚絅大) / 饗庭 絵里子(電通大)
幹事補佐氏名(和) 橋本 佳(名工大) / 小橋川 哲(NTT)
幹事補佐氏名(英) Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Auditory Research Meeting
本文の言語 JPN
タイトル(和) メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用
サブタイトル(和)
タイトル(英) Mel-cepstrum based quantization noise shaping applied to speech synthesis based on WaveNet
サブタイトル(和)
キーワード(1)(和/英) 音声合成 / speech synthesis
キーワード(2)(和/英) ノイズシェーピング / noise shaping
キーワード(3)(和/英) 量子化 / quantization
キーワード(4)(和/英) メルケプストラム / mel-cepstrum
キーワード(5)(和/英) WaveNet / WaveNet
第 1 著者 氏名(和/英) 吉村 建慶 / Takenori Yoshimura
第 1 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:Nagoya Inst. of Tech.)
第 2 著者 氏名(和/英) 橋本 佳 / Kei Hashimoto
第 2 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:Nagoya Inst. of Tech.)
第 3 著者 氏名(和/英) 大浦 圭一郎 / Keiichiro Oura
第 3 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:Nagoya Inst. of Tech.)
第 4 著者 氏名(和/英) 南角 吉彦 / Yoshihiko Nankaku
第 4 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:Nagoya Inst. of Tech.)
第 5 著者 氏名(和/英) 徳田 恵一 / Keiichi Tokuda
第 5 著者 所属(和/英) 名古屋工業大学(略称:名工大)
Nagoya Institute of Technology(略称:Nagoya Inst. of Tech.)
発表年月日 2018-01-21
資料番号 SP2017-83
巻番号(vol) vol.117
号番号(no) SP-393
ページ範囲 pp.93-98(SP),
ページ数 6
発行日 2018-01-13 (SP)