講演名 2015-12-03
統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出
高木 信二(NII), 山岸 順一(NII),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 統計的パラメトリック音声合成システムでは,正確かつ安定したスペクトル包絡を推定するため,STRAIGHTスペクトル解析器のような音声解析モジュールが用いられ,得られたスペクトル包絡から抽出された低次元特徴量が音響モデル構築に用いられることが多い.しかし,音声合成の目標を正確なスペクトル包絡の抽出,モデル化,予測ではなく音声波形の再現と考えた場合,音声波形もしくはより原信号に近い入力を利用し,音声波形との誤差を少なくするという方向性も考えられる.本論文では,統計的パラメトリック音声合成において,Deep Auto-encoderを用い,より原信号近いFFTスペクトルから低次元音響特徴量を抽出することを検討する.テキスト音声合成実験において,異なるスペクトル推定(STRAIGHT,WORLD,FFT),低次元特徴量抽出 (メルケプストラム分析,DeepAuto-encoder),音響モデル (HMM,DNN)を組み合わせた7種類のテキスト音声合成システムを構築し比較を行い,評価を行った.
抄録(英) In the state-of-the-art statistical parametric speech synthesis system, a speech analysis module, e.g. STRAIGHT spectral analysis, is generally used for obtaining accurate and stable spectral envelopes, and then low-dimensional acoustic features extracted from obtained spectral envelopes are used for training acoustic models. However, a spectral envelope estimation algorithm used in such a speech analysis module includes various processing derived from human knowledge. In this paper, we investigate a deep auto-encoder based, non-linear, data-driven and unsupervised low-dimensional feature extraction using FFT spectral envelopes for statistical parametric speech synthesis. Experimental results have shown that a text-to-speech synthesis system using a deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes is indeed a promising approach.
キーワード(和) 統計的パラメトリック音声合成 / DNN / Deep Auto-encoder / スペクトル包絡 / ボコーダ
キーワード(英) Statistical parametric speech synthesis / DNN / Deep Auto-encoder / Spectral envelope / Vocoder
資料番号 SP2015-81
発行日 2015-11-25 (SP)

研究会情報
研究会 NLC / IPSJ-NL / SP / IPSJ-SLP
開催期間 2015/12/2(から3日開催)
開催地(和) 名古屋工業大学
開催地(英) Nagoya Inst of Tech.
テーマ(和) 第2回自然言語処理シンポジウム & 第17回音声言語シンポジウム
テーマ(英) The Second Natural Language Processing Symposium & The 17th Spoken Language Symposium
委員長氏名(和) 竹内 孔一(岡山大) / 乾 健太郎(東北大) / 間野 一則(芝浦工大) / 篠田 浩一(東工大)
委員長氏名(英) Koichi Takeuchi(Okayama Univ.) / Kentaro Inui(Tohoku Univ.) / Kazunori Mano(Shibaura Inst. of Tech.) / Koichi Shinoda(東工大)
副委員長氏名(和) 金山 博(日本IBM) / 市瀬 眞(NTTドコモ) / / 北岡 教英(徳島大)
副委員長氏名(英) Hiroshi Kanayama(IBM) / Makoto Ichise(NTT DoCoMo) / / Norihide Kitaoka(Tokushima Univ.)
幹事氏名(和) 榊 剛史(東大/ホットリンク) / 渡辺 靖彦(龍谷大) / 荒瀬 由紀(大阪大) / 岡崎 直観(東北大) / 木村 俊也(ミクシィ) / 小町 守(首都大学東京) / 森 信介(京都大) / 岩野 公司(東京都市大) / 滝口 哲也(神戸大) / 李 晃伸(名工大) / 南條 浩輝(龍谷大) / 篠原 雄介(東芝)
幹事氏名(英) Takeshi Sakaki(Univ. of Tokyo/Hottolink) / Yasuhiko Watanabe(Ryukoku Univ.) / Yuki Arase(Osaka Univ.) / Naoaki Okazaki(Tohoku Univ.) / Toshiya Kimura(Mixi Co. Ltd.) / Mamoru Komachi(Tokyo Met. Univ.) / Shinsuke Mori(Kyoto Univ.) / Koji Iwano(Tokyo City Univ.) / Tetsuya Takiguchi(Kobe Univ.) / Akinobu Lee(名工大) / Hiroaki Nanjo(龍谷大) / 篠原 雄介(東芝)
幹事補佐氏名(和) 嶋田 和孝(九工大) / 東中 竜一郎(NTT) / / 能勢 隆(東北大) / 浅見 太一(NTT)
幹事補佐氏名(英) Kazutaka Shimada(Kyushu Inst. of Tech.) / Ryuichiro Higashinaka(NTT) / / Takashi Nose(Tohoku Univ.) / Taichi Asami(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出
サブタイトル(和)
タイトル(英) Deep Auto-encoder based Low-dimensional Feature Extraction using FFT Spectral Envelopes in Statistical Parametric Speech Synthesis
サブタイトル(和)
キーワード(1)(和/英) 統計的パラメトリック音声合成 / Statistical parametric speech synthesis
キーワード(2)(和/英) DNN / DNN
キーワード(3)(和/英) Deep Auto-encoder / Deep Auto-encoder
キーワード(4)(和/英) スペクトル包絡 / Spectral envelope
キーワード(5)(和/英) ボコーダ / Vocoder
第 1 著者 氏名(和/英) 高木 信二 / Shinji Takaki
第 1 著者 所属(和/英) 国立情報学研究所(略称:NII)
National Institute of Informatics(略称:NII)
第 2 著者 氏名(和/英) 山岸 順一 / Junichi Yamagishi
第 2 著者 所属(和/英) 国立情報学研究所(略称:NII)
National Institute of Informatics(略称:NII)
発表年月日 2015-12-03
資料番号 SP2015-81
巻番号(vol) vol.115
号番号(no) SP-346
ページ範囲 pp.99-104(SP),
ページ数 6
発行日 2015-11-25 (SP)