講演名 2016-01-14
高品質音声合成のためのピッチ同期帯域群遅延ボコーダ
田村 正統(東芝), 森中 亮(東芝), 森田 眞弘(東芝),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 統計モデルに基づく高品質音声合成を実現するため、音声波形を精密に再現する音声分析手法および、波形生成手法を提案する。提案法は、ピッチ同期分析に基づいており、各ピッチマークにおけるパワースペクトル・非周期成分指標、ピッチ、および位相スペクトルをそれぞれメルLSP(線スペクトル対)、帯域雑音強度、対数基本周波数および、新たに提案する帯域群遅延パラメータにより表現する。提案する帯域群遅延パラメータは各帯域の平均時間を表し、境界周波数において位相を再現する補正パラメータと共に位相スペクトルを表現する。さらに時間領域の音源生成処理およびフィルタによる、位相を付与した音声波形を高速に生成可能なボコーダを提案する。主観評価および客観評価により、分析元のピッチ波形を高精度に再現できる事を示す。
抄録(英) This paper presents a speech analysis and synthesis method that can precisely synthesize speech waveforms for high quality statistical parametric speech synthesis. The proposed method is based on pitch-synchronous analysis. A power spectrum, aperiodicity measure, pitch, and phase spectrum of each analysis frame is represented by a mel LSP (MLSP), band aperiodicity (BAP), log fundamental frequency (LF0) and new band group delay with compensation parameter (BGRDC), respectively. The BGRDC consists of a band group delay parameter which represents a mean time of each frequency band and a compensation parameter which recovers a phase spectrum at the boundary of the band. We also propose a band group delay vocoder that enables fast generation of speech waveforms by using time domain excitation generation and a vocal tract filter. We show that the proposed method can precisely generate speech waveforms by objective and subjective evaluations.
キーワード(和) 音声分析 / 音声合成 / ボコーダ / ピッチ同期分析 / 位相スペクトル / 群遅延
キーワード(英) Speech Analysis / Speech Synthesis / Vocoder / Pitch-synchronous analysis / Phase spectrum / Group delay
資料番号 SP2015-91
発行日 2016-01-07 (SP)

研究会情報
研究会 SP
開催期間 2016/1/14(から1日開催)
開催地(和) サンピアンかわさき
開催地(英) Sunpian Kawasaki
テーマ(和) 合成、生成、韻律、音声一般
テーマ(英) Synthesis, Generation, Prosody, etc.
委員長氏名(和) 間野 一則(芝浦工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.)
副委員長氏名(和) 北岡 教英(徳島大)
副委員長氏名(英) Norihide Kitaoka(Tokushima Univ.)
幹事氏名(和) 岩野 公司(東京都市大) / 滝口 哲也(神戸大)
幹事氏名(英) Koji Iwano(Tokyo City Univ.) / Tetsuya Takiguchi(Kobe Univ.)
幹事補佐氏名(和) 能勢 隆(東北大) / 浅見 太一(NTT)
幹事補佐氏名(英) Takashi Nose(Tohoku Univ.) / Taichi Asami(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Speech
本文の言語 JPN
タイトル(和) 高品質音声合成のためのピッチ同期帯域群遅延ボコーダ
サブタイトル(和)
タイトル(英) Pitch-synchronous band group delay vocoder for high quality speech synthesis
サブタイトル(和)
キーワード(1)(和/英) 音声分析 / Speech Analysis
キーワード(2)(和/英) 音声合成 / Speech Synthesis
キーワード(3)(和/英) ボコーダ / Vocoder
キーワード(4)(和/英) ピッチ同期分析 / Pitch-synchronous analysis
キーワード(5)(和/英) 位相スペクトル / Phase spectrum
キーワード(6)(和/英) 群遅延 / Group delay
第 1 著者 氏名(和/英) 田村 正統 / Masatsune Tamura
第 1 著者 所属(和/英) 株式会社東芝(略称:東芝)
Toshiba Corporation(略称:Toshiba)
第 2 著者 氏名(和/英) 森中 亮 / Ryo Morinaka
第 2 著者 所属(和/英) 株式会社東芝(略称:東芝)
Toshiba Corporation(略称:Toshiba)
第 3 著者 氏名(和/英) 森田 眞弘 / Masahiro Morita
第 3 著者 所属(和/英) 株式会社東芝(略称:東芝)
Toshiba Corporation(略称:Toshiba)
発表年月日 2016-01-14
資料番号 SP2015-91
巻番号(vol) vol.115
号番号(no) SP-392
ページ範囲 pp.33-38(SP),
ページ数 6
発行日 2016-01-07 (SP)