講演名 2017-03-01
音声生成過程を考慮したWaveNetに基づく音声波形合成法
玉森 聡(名大), 林 知樹(名大), 戸田 智基(名大), 武田 一哉(名大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本研究では,最近新たに提案されたニューラルネットワークであるWaveNetを援用し,既存のボコーダの音響特徴量をWaveNetの入力補助特徴量に用いて音声波形を合成する手法を提案する.これらの特徴量は音声の生成過程を考慮して抽出されることから,補助特徴量として効果的に働くことが期待される.特に提案法は既存のボコーダで必要とされる音源励起信号の生成を介さないことから,詳細な時間情報を回復した高品質な音声波形の合成が期待される.実験ではメルケプストラムボコーダのパラメータを対象とし,合成音声の品質をSNR (Signal-to-Noise Ratio) とSDR (Signal-to-Distortion~Ratio) の2つの指標によって客観的に評価した.実験の結果,SNRについて有意な改善を得たことから,提案法の有効性が確認された.
抄録(英) Our aim is to realize a new vocoder, which can resolve various constraints imposed on source-filter model and deal with speech waveform directly. In this study, we propose a method of synthesizing speech waveforms with WaveNet, which was a recently proposed neural network for generating audio signal waveforms, by using existing vocoder parameters as input auxiliary features. It is expected that these parameters are effective for auxiliary feature of waveform generation, because they are based on source-filter model. In the experiment, parameters of mel-cepstrum vocoder were selected as target, and quality of synthesized speech was objectively evaluated by SNR (Signal-to-Noise Ratio) and SDR (Signal-to-Distortion Ratio). From the results, it was confirmed that the sound quality was significantly improved for SNR and proposed method was effective.
キーワード(和) WaveNet / 畳み込みニューラルネットワーク / ソースフィルタモデル / メルケプストラム / 基本周波数 / ボコーダ / 深層学習
キーワード(英) WaveNet / convolutional neural network / source-filter model / mel-cepstrum / fundamental frequency. / vocoder / deep leaning
資料番号 EA2016-82,SIP2016-137,SP2016-77
発行日 2017-02-22 (EA, SIP, SP)

研究会情報
研究会 SP / SIP / EA
開催期間 2017/3/1(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名(和) 間野 一則(芝浦工大) / 中静 真(千葉工大) / 水町 光徳(九工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大) / 奥田 正浩(北九州市大) / 村松 正吾(新潟大) / 羽田 陽一(電通大) / 島内 末廣(NTT)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大) / 平林 晃(立命館大) / 宮田 高道(千葉工大) / 堀内 俊治(KDDI研) / 渡邉 貫治(秋田県立大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大) / 渡邊 修(拓殖大) / 武岡 成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語 JPN
タイトル(和) 音声生成過程を考慮したWaveNetに基づく音声波形合成法
サブタイトル(和)
タイトル(英) Speech waveform synthesis based on WaveNet considering speech generation process
サブタイトル(和)
キーワード(1)(和/英) WaveNet / WaveNet
キーワード(2)(和/英) 畳み込みニューラルネットワーク / convolutional neural network
キーワード(3)(和/英) ソースフィルタモデル / source-filter model
キーワード(4)(和/英) メルケプストラム / mel-cepstrum
キーワード(5)(和/英) 基本周波数 / fundamental frequency.
キーワード(6)(和/英) ボコーダ / vocoder
キーワード(7)(和/英) 深層学習 / deep leaning
第 1 著者 氏名(和/英) 玉森 聡 / Akira Tamamori
第 1 著者 所属(和/英) 名古屋大学/JST(略称:名大)
Nagoya University/JST(略称:Nagoya Univ.)
第 2 著者 氏名(和/英) 林 知樹 / Tomoki Hayashi
第 2 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
第 3 著者 氏名(和/英) 戸田 智基 / Tomoki Toda
第 3 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
第 4 著者 氏名(和/英) 武田 一哉 / Kazuya Takeda
第 4 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
発表年月日 2017-03-01
資料番号 EA2016-82,SIP2016-137,SP2016-77
巻番号(vol) vol.116
号番号(no) EA-475,SIP-476,SP-477
ページ範囲 pp.1-6(EA), pp.1-6(SIP), pp.1-6(SP),
ページ数 6
発行日 2017-02-22 (EA, SIP, SP)