メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用

吉村 建慶; 橋本 佳; 大浦 圭一郎; 南角 吉彦; 徳田 恵一

講演名	2018-01-21 メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用吉村建慶(名工大), 橋本佳(名工大), 大浦圭一郎(名工大), 南角吉彦(名工大), 徳田恵一(名工大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	統計的アプローチに基づく音声合成においては，音声波形からメルケプストラムなどの音響特徴量を抽出し，抽出した音響特徴量をモデル化する手法が広く研究されてきた．一方で，最近，WaveNetのようにニューラルネットワークを用いて音声波形を直接モデル化する手法が提案され，音響特徴量をモデル化する手法を凌ぐ性能が示されている．音声波形を直接モデル化する手法においては，音声波形のモデル化を回帰問題ではなく分類問題として捉えるため，音声波形に対して量子化が行われる．しかし，量子化を行うことにより発生する量子化ノイズが白色であるため，量子化ノイズの特に高域の周波数成分が知覚されやすいという問題があった．この問題に対して，本稿では，メルケプストラムに基づくプリフィルタリングおよびノイズシェーピング量子化法を適用する．プリフィルタリングおよびノイズシェーピングの操作はメルケプストラムを介して行うため，これらの効果は人間の聴覚特性に合ったものとなっており，量子化ノイズが音声によって効率良くマスクされることが期待される．WaveNetを用いた評価実験の結果，提案法によって合成音声の品質が大幅に向上することが示された．
抄録(英)	This paper proposes a mel-cepstrum based quantization noise shaping for improving the quality of synthetic speech generated by neural network based speech waveform synthesis systems. Since mel-cepstral coefficients closely match the characteristics of human auditory perception, it is expected that the proposed method effectively masks the white noise introduced by the quantization typically used in neural network based speech waveform synthesis systems. The paper also describes a mel-cepstrum based prefiltering to further mask the quantization noise. Experiments using the WaveNet generative model showed that speech quality is significantly improved by the proposed method.
キーワード(和)	音声合成 / ノイズシェーピング / 量子化 / メルケプストラム / WaveNet
キーワード(英)	speech synthesis / noise shaping / quantization / mel-cepstrum / WaveNet
資料番号	SP2017-83
発行日	2018-01-13 (SP)

研究会情報
研究会	SP / ASJ-H
開催期間	2018/1/20(から2日開催)
開催地（和）	東京大学
開催地（英）	The University of Tokyo
テーマ（和）	音声合成，音声コミュニケーション，聴覚，音声一般
テーマ（英）
委員長氏名（和）	山下洋一(立命館大) / 平原達也(富山県立大)
委員長氏名（英）	Yoichi Yamashita(Ritsumeikan Univ.) / 平原達也(富山県立大)
副委員長氏名（和）	森大毅(宇都宮大) / 中川誠司(千葉大)
副委員長氏名（英）	Hiroki Mori(Utsunomiya Univ.) / 中川誠司(千葉大)
幹事氏名（和）	西田昌史(静岡大) / 坂野秀樹(名城大) / 木谷俊介(北陸大) / 山川仁子(尚絅大) / 饗庭絵里子(電通大)
幹事氏名（英）	Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / 木谷俊介(北陸大) / 山川仁子(尚絅大) / 饗庭絵里子(電通大)
幹事補佐氏名（和）	橋本佳(名工大) / 小橋川哲(NTT)
幹事補佐氏名（英）	Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Auditory Research Meeting
本文の言語	JPN
タイトル（和）	メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用
サブタイトル（和）
タイトル（英）	Mel-cepstrum based quantization noise shaping applied to speech synthesis based on WaveNet
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	ノイズシェーピング / noise shaping
キーワード(3)（和/英）	量子化 / quantization
キーワード(4)（和/英）	メルケプストラム / mel-cepstrum
キーワード(5)（和/英）	WaveNet / WaveNet
第 1 著者氏名（和/英）	吉村建慶 / Takenori Yoshimura
第 1 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：Nagoya Inst. of Tech.)
第 2 著者氏名（和/英）	橋本佳 / Kei Hashimoto
第 2 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：Nagoya Inst. of Tech.)
第 3 著者氏名（和/英）	大浦圭一郎 / Keiichiro Oura
第 3 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：Nagoya Inst. of Tech.)
第 4 著者氏名（和/英）	南角吉彦 / Yoshihiko Nankaku
第 4 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：Nagoya Inst. of Tech.)
第 5 著者氏名（和/英）	徳田恵一 / Keiichi Tokuda
第 5 著者所属（和/英）	名古屋工業大学(略称：名工大) Nagoya Institute of Technology(略称：Nagoya Inst. of Tech.)
発表年月日	2018-01-21
資料番号	SP2017-83
巻番号（vol）	vol.117
号番号（no）	SP-393
ページ範囲	pp.93-98(SP),
ページ数	6
発行日	2018-01-13 (SP)