音声生成過程を考慮したWaveNetに基づく音声波形合成法

玉森 聡; 林 知樹; 戸田 智基; 武田 一哉

講演名	2017-03-01 音声生成過程を考慮したWaveNetに基づく音声波形合成法玉森聡(名大), 林知樹(名大), 戸田智基(名大), 武田一哉(名大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本研究では，最近新たに提案されたニューラルネットワークであるWaveNetを援用し，既存のボコーダの音響特徴量をWaveNetの入力補助特徴量に用いて音声波形を合成する手法を提案する．これらの特徴量は音声の生成過程を考慮して抽出されることから，補助特徴量として効果的に働くことが期待される．特に提案法は既存のボコーダで必要とされる音源励起信号の生成を介さないことから，詳細な時間情報を回復した高品質な音声波形の合成が期待される．実験ではメルケプストラムボコーダのパラメータを対象とし，合成音声の品質をSNR (Signal-to-Noise Ratio) とSDR (Signal-to-Distortion~Ratio) の2つの指標によって客観的に評価した．実験の結果，SNRについて有意な改善を得たことから，提案法の有効性が確認された．
抄録(英)	Our aim is to realize a new vocoder, which can resolve various constraints imposed on source-filter model and deal with speech waveform directly. In this study, we propose a method of synthesizing speech waveforms with WaveNet, which was a recently proposed neural network for generating audio signal waveforms, by using existing vocoder parameters as input auxiliary features. It is expected that these parameters are effective for auxiliary feature of waveform generation, because they are based on source-filter model. In the experiment, parameters of mel-cepstrum vocoder were selected as target, and quality of synthesized speech was objectively evaluated by SNR (Signal-to-Noise Ratio) and SDR (Signal-to-Distortion Ratio). From the results, it was confirmed that the sound quality was significantly improved for SNR and proposed method was effective.
キーワード(和)	WaveNet / 畳み込みニューラルネットワーク / ソースフィルタモデル / メルケプストラム / 基本周波数 / ボコーダ / 深層学習
キーワード(英)	WaveNet / convolutional neural network / source-filter model / mel-cepstrum / fundamental frequency. / vocoder / deep leaning
資料番号	EA2016-82,SIP2016-137,SP2016-77
発行日	2017-02-22 (EA, SIP, SP)

研究会情報
研究会	SP / SIP / EA
開催期間	2017/3/1(から2日開催)
開催地（和）	沖縄産業支援センター
開催地（英）	Okinawa Industry Support Center
テーマ（和）	音声，応用／電気音響，信号処理，一般
テーマ（英）	Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名（和）	間野一則(芝浦工大) / 中静真(千葉工大) / 水町光徳(九工大)
委員長氏名（英）	Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名（和）	森大毅(宇都宮大) / 奥田正浩(北九州市大) / 村松正吾(新潟大) / 羽田陽一(電通大) / 島内末廣(NTT)
副委員長氏名（英）	Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名（和）	滝口哲也(神戸大) / 西田昌史(静岡大) / 平林晃(立命館大) / 宮田高道(千葉工大) / 堀内俊治(KDDI研) / 渡邉貫治(秋田県立大)
幹事氏名（英）	Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名（和）	浅見太一(NTT) / 橋本佳(名工大) / 渡邊修(拓殖大) / 武岡成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名（英）	Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語	JPN
タイトル（和）	音声生成過程を考慮したWaveNetに基づく音声波形合成法
サブタイトル（和）
タイトル（英）	Speech waveform synthesis based on WaveNet considering speech generation process
サブタイトル（和）
キーワード(1)（和/英）	WaveNet / WaveNet
キーワード(2)（和/英）	畳み込みニューラルネットワーク / convolutional neural network
キーワード(3)（和/英）	ソースフィルタモデル / source-filter model
キーワード(4)（和/英）	メルケプストラム / mel-cepstrum
キーワード(5)（和/英）	基本周波数 / fundamental frequency.
キーワード(6)（和/英）	ボコーダ / vocoder
キーワード(7)（和/英）	深層学習 / deep leaning
第 1 著者氏名（和/英）	玉森聡 / Akira Tamamori
第 1 著者所属（和/英）	名古屋大学/JST(略称：名大) Nagoya University/JST(略称：Nagoya Univ.)
第 2 著者氏名（和/英）	林知樹 / Tomoki Hayashi
第 2 著者所属（和/英）	名古屋大学(略称：名大) Nagoya University(略称：Nagoya Univ.)
第 3 著者氏名（和/英）	戸田智基 / Tomoki Toda
第 3 著者所属（和/英）	名古屋大学(略称：名大) Nagoya University(略称：Nagoya Univ.)
第 4 著者氏名（和/英）	武田一哉 / Kazuya Takeda
第 4 著者所属（和/英）	名古屋大学(略称：名大) Nagoya University(略称：Nagoya Univ.)
発表年月日	2017-03-01
資料番号	EA2016-82,SIP2016-137,SP2016-77
巻番号（vol）	vol.116
号番号（no）	EA-475,SIP-476,SP-477
ページ範囲	pp.1-6(EA), pp.1-6(SIP), pp.1-6(SP),
ページ数	6
発行日	2017-02-22 (EA, SIP, SP)