電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2017-03-01 09:20
音声生成過程を考慮したWaveNetに基づく音声波形合成法
玉森 聡林 知樹戸田智基武田一哉名大
技報オンラインサービス実施中
抄録 (和) 本研究では,最近新たに提案されたニューラルネットワークであるWaveNetを援用し,既存のボコーダの音響特徴量をWaveNetの入力補助特徴量に用いて音声波形を合成する手法を提案する.これらの特徴量は音声の生成過程を考慮して抽出されることから,補助特徴量として効果的に働くことが期待される.特に提案法は既存のボコーダで必要とされる音源励起信号の生成を介さないことから,詳細な時間情報を回復した高品質な音声波形の合成が期待される.実験ではメルケプストラムボコーダのパラメータを対象とし,合成音声の品質をSNR (Signal-to-Noise Ratio) とSDR (Signal-to-Distortion~Ratio) の2つの指標によって客観的に評価した.実験の結果,SNRについて有意な改善を得たことから,提案法の有効性が確認された. 
(英) Our aim is to realize a new vocoder, which can resolve various constraints imposed on source-filter model and deal with speech waveform directly. In this study, we propose a method of synthesizing speech waveforms with WaveNet, which was a recently proposed neural network for generating audio signal waveforms, by using existing vocoder parameters as input auxiliary features. It is expected that these parameters are effective for auxiliary feature of waveform generation, because they are based on source-filter model. In the experiment, parameters of mel-cepstrum vocoder were selected as target, and quality of synthesized speech was objectively evaluated by SNR (Signal-to-Noise Ratio) and SDR (Signal-to-Distortion Ratio). From the results, it was confirmed that the sound quality was significantly improved for SNR and proposed method was effective.
キーワード (和) WaveNet / 畳み込みニューラルネットワーク / ソースフィルタモデル / メルケプストラム / 基本周波数 / ボコーダ / 深層学習 /  
(英) WaveNet / convolutional neural network / source-filter model / mel-cepstrum / fundamental frequency. / vocoder / deep leaning /  
文献情報 信学技報, vol. 116, no. 477, SP2016-77, pp. 1-6, 2017年3月.
資料番号 SP2016-77 
発行日 2017-02-22 (EA, SIP, SP) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380

研究会情報
研究会 SP SIP EA  
開催期間 2017-03-01 - 2017-03-02 
開催地(和) 沖縄産業支援センター 
開催地(英) Okinawa Industry Support Center 
テーマ(和) 音声,応用/電気音響,信号処理,一般 
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics 
講演論文情報の詳細
申込み研究会 SP 
会議コード 2017-03-SP-SIP-EA 
本文の言語 日本語 
タイトル(和) 音声生成過程を考慮したWaveNetに基づく音声波形合成法 
サブタイトル(和)  
タイトル(英) Speech waveform synthesis based on WaveNet considering speech generation process 
サブタイトル(英)  
キーワード(1)(和/英) WaveNet / WaveNet  
キーワード(2)(和/英) 畳み込みニューラルネットワーク / convolutional neural network  
キーワード(3)(和/英) ソースフィルタモデル / source-filter model  
キーワード(4)(和/英) メルケプストラム / mel-cepstrum  
キーワード(5)(和/英) 基本周波数 / fundamental frequency.  
キーワード(6)(和/英) ボコーダ / vocoder  
キーワード(7)(和/英) 深層学習 / deep leaning  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 玉森 聡 / Akira Tamamori / タマモリ アキラ
第1著者 所属(和/英) 名古屋大学/JST (略称: 名大)
Nagoya University/JST (略称: Nagoya Univ.)
第2著者 氏名(和/英/ヨミ) 林 知樹 / Tomoki Hayashi / トモキ ハヤシ
第2著者 所属(和/英) 名古屋大学 (略称: 名大)
Nagoya University (略称: Nagoya Univ.)
第3著者 氏名(和/英/ヨミ) 戸田 智基 / Tomoki Toda / トモキ トダ
第3著者 所属(和/英) 名古屋大学 (略称: 名大)
Nagoya University (略称: Nagoya Univ.)
第4著者 氏名(和/英/ヨミ) 武田 一哉 / Kazuya Takeda /
第4著者 所属(和/英) 名古屋大学 (略称: 名大)
Nagoya University (略称: Nagoya Univ.)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2017-03-01 09:20:00 
発表時間 25 
申込先研究会 SP 
資料番号 IEICE-EA2016-82,IEICE-SIP2016-137,IEICE-SP2016-77 
巻番号(vol) IEICE-116 
号番号(no) no.475(EA), no.476(SIP), no.477(SP) 
ページ範囲 pp.1-6 
ページ数 IEICE-6 
発行日 IEICE-EA-2017-02-22,IEICE-SIP-2017-02-22,IEICE-SP-2017-02-22 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会