統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出

高木 信二; 山岸 順一

講演名	2015-12-03 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出高木信二(NII), 山岸順一(NII),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	統計的パラメトリック音声合成システムでは，正確かつ安定したスペクトル包絡を推定するため，STRAIGHTスペクトル解析器のような音声解析モジュールが用いられ，得られたスペクトル包絡から抽出された低次元特徴量が音響モデル構築に用いられることが多い．しかし，音声合成の目標を正確なスペクトル包絡の抽出，モデル化，予測ではなく音声波形の再現と考えた場合，音声波形もしくはより原信号に近い入力を利用し，音声波形との誤差を少なくするという方向性も考えられる．本論文では，統計的パラメトリック音声合成において，Deep Auto-encoderを用い，より原信号近いFFTスペクトルから低次元音響特徴量を抽出することを検討する．テキスト音声合成実験において，異なるスペクトル推定(STRAIGHT，WORLD，FFT)，低次元特徴量抽出 (メルケプストラム分析，DeepAuto-encoder)，音響モデル (HMM，DNN)を組み合わせた7種類のテキスト音声合成システムを構築し比較を行い，評価を行った．
抄録(英)	In the state-of-the-art statistical parametric speech synthesis system, a speech analysis module, e.g. STRAIGHT spectral analysis, is generally used for obtaining accurate and stable spectral envelopes, and then low-dimensional acoustic features extracted from obtained spectral envelopes are used for training acoustic models. However, a spectral envelope estimation algorithm used in such a speech analysis module includes various processing derived from human knowledge. In this paper, we investigate a deep auto-encoder based, non-linear, data-driven and unsupervised low-dimensional feature extraction using FFT spectral envelopes for statistical parametric speech synthesis. Experimental results have shown that a text-to-speech synthesis system using a deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes is indeed a promising approach.
キーワード(和)	統計的パラメトリック音声合成 / DNN / Deep Auto-encoder / スペクトル包絡 / ボコーダ
キーワード(英)	Statistical parametric speech synthesis / DNN / Deep Auto-encoder / Spectral envelope / Vocoder
資料番号	SP2015-81
発行日	2015-11-25 (SP)

研究会情報
研究会	NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間	2015/12/2(から3日開催)
開催地（和）	名古屋工業大学
開催地（英）	Nagoya Inst of Tech.
テーマ（和）	第2回自然言語処理シンポジウム＆第17回音声言語シンポジウム
テーマ（英）	The Second Natural Language Processing Symposium & The 17th Spoken Language Symposium
委員長氏名（和）	竹内孔一(岡山大) / 乾健太郎(東北大) / 間野一則(芝浦工大) / 篠田浩一(東工大)
委員長氏名（英）	Koichi Takeuchi(Okayama Univ.) / Kentaro Inui(Tohoku Univ.) / Kazunori Mano(Shibaura Inst. of Tech.) / Koichi Shinoda(東工大)
副委員長氏名（和）	金山博(日本IBM) / 市瀬眞(NTTドコモ) / / 北岡教英(徳島大)
副委員長氏名（英）	Hiroshi Kanayama(IBM) / Makoto Ichise(NTT DoCoMo) / / Norihide Kitaoka(Tokushima Univ.)
幹事氏名（和）	榊剛史(東大/ホットリンク) / 渡辺靖彦(龍谷大) / 荒瀬由紀(大阪大) / 岡崎直観(東北大) / 木村俊也(ミクシィ) / 小町守(首都大学東京) / 森信介(京都大) / 岩野公司(東京都市大) / 滝口哲也(神戸大) / 李晃伸(名工大) / 南條浩輝(龍谷大) / 篠原雄介(東芝)
幹事氏名（英）	Takeshi Sakaki(Univ. of Tokyo/Hottolink) / Yasuhiko Watanabe(Ryukoku Univ.) / Yuki Arase(Osaka Univ.) / Naoaki Okazaki(Tohoku Univ.) / Toshiya Kimura(Mixi Co. Ltd.) / Mamoru Komachi(Tokyo Met. Univ.) / Shinsuke Mori(Kyoto Univ.) / Koji Iwano(Tokyo City Univ.) / Tetsuya Takiguchi(Kobe Univ.) / Akinobu Lee(名工大) / Hiroaki Nanjo(龍谷大) / 篠原雄介(東芝)
幹事補佐氏名（和）	嶋田和孝(九工大) / 東中竜一郎(NTT) / / 能勢隆(東北大) / 浅見太一(NTT)
幹事補佐氏名（英）	Kazutaka Shimada(Kyushu Inst. of Tech.) / Ryuichiro Higashinaka(NTT) / / Takashi Nose(Tohoku Univ.) / Taichi Asami(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出
サブタイトル（和）
タイトル（英）	Deep Auto-encoder based Low-dimensional Feature Extraction using FFT Spectral Envelopes in Statistical Parametric Speech Synthesis
サブタイトル（和）
キーワード(1)（和/英）	統計的パラメトリック音声合成 / Statistical parametric speech synthesis
キーワード(2)（和/英）	DNN / DNN
キーワード(3)（和/英）	Deep Auto-encoder / Deep Auto-encoder
キーワード(4)（和/英）	スペクトル包絡 / Spectral envelope
キーワード(5)（和/英）	ボコーダ / Vocoder
第 1 著者氏名（和/英）	高木信二 / Shinji Takaki
第 1 著者所属（和/英）	国立情報学研究所(略称：NII) National Institute of Informatics(略称：NII)
第 2 著者氏名（和/英）	山岸順一 / Junichi Yamagishi
第 2 著者所属（和/英）	国立情報学研究所(略称：NII) National Institute of Informatics(略称：NII)
発表年月日	2015-12-03
資料番号	SP2015-81
巻番号（vol）	vol.115
号番号（no）	SP-346
ページ範囲	pp.99-104(SP),
ページ数	6
発行日	2015-11-25 (SP)