講演名 | 2016-01-14 高品質音声合成のためのピッチ同期帯域群遅延ボコーダ 田村 正統(東芝), 森中 亮(東芝), 森田 眞弘(東芝), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 統計モデルに基づく高品質音声合成を実現するため、音声波形を精密に再現する音声分析手法および、波形生成手法を提案する。提案法は、ピッチ同期分析に基づいており、各ピッチマークにおけるパワースペクトル・非周期成分指標、ピッチ、および位相スペクトルをそれぞれメルLSP(線スペクトル対)、帯域雑音強度、対数基本周波数および、新たに提案する帯域群遅延パラメータにより表現する。提案する帯域群遅延パラメータは各帯域の平均時間を表し、境界周波数において位相を再現する補正パラメータと共に位相スペクトルを表現する。さらに時間領域の音源生成処理およびフィルタによる、位相を付与した音声波形を高速に生成可能なボコーダを提案する。主観評価および客観評価により、分析元のピッチ波形を高精度に再現できる事を示す。 |
抄録(英) | This paper presents a speech analysis and synthesis method that can precisely synthesize speech waveforms for high quality statistical parametric speech synthesis. The proposed method is based on pitch-synchronous analysis. A power spectrum, aperiodicity measure, pitch, and phase spectrum of each analysis frame is represented by a mel LSP (MLSP), band aperiodicity (BAP), log fundamental frequency (LF0) and new band group delay with compensation parameter (BGRDC), respectively. The BGRDC consists of a band group delay parameter which represents a mean time of each frequency band and a compensation parameter which recovers a phase spectrum at the boundary of the band. We also propose a band group delay vocoder that enables fast generation of speech waveforms by using time domain excitation generation and a vocal tract filter. We show that the proposed method can precisely generate speech waveforms by objective and subjective evaluations. |
キーワード(和) | 音声分析 / 音声合成 / ボコーダ / ピッチ同期分析 / 位相スペクトル / 群遅延 |
キーワード(英) | Speech Analysis / Speech Synthesis / Vocoder / Pitch-synchronous analysis / Phase spectrum / Group delay |
資料番号 | SP2015-91 |
発行日 | 2016-01-07 (SP) |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2016/1/14(から1日開催) |
開催地(和) | サンピアンかわさき |
開催地(英) | Sunpian Kawasaki |
テーマ(和) | 合成、生成、韻律、音声一般 |
テーマ(英) | Synthesis, Generation, Prosody, etc. |
委員長氏名(和) | 間野 一則(芝浦工大) |
委員長氏名(英) | Kazunori Mano(Shibaura Inst. of Tech.) |
副委員長氏名(和) | 北岡 教英(徳島大) |
副委員長氏名(英) | Norihide Kitaoka(Tokushima Univ.) |
幹事氏名(和) | 岩野 公司(東京都市大) / 滝口 哲也(神戸大) |
幹事氏名(英) | Koji Iwano(Tokyo City Univ.) / Tetsuya Takiguchi(Kobe Univ.) |
幹事補佐氏名(和) | 能勢 隆(東北大) / 浅見 太一(NTT) |
幹事補佐氏名(英) | Takashi Nose(Tohoku Univ.) / Taichi Asami(NTT) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech |
---|---|
本文の言語 | JPN |
タイトル(和) | 高品質音声合成のためのピッチ同期帯域群遅延ボコーダ |
サブタイトル(和) | |
タイトル(英) | Pitch-synchronous band group delay vocoder for high quality speech synthesis |
サブタイトル(和) | |
キーワード(1)(和/英) | 音声分析 / Speech Analysis |
キーワード(2)(和/英) | 音声合成 / Speech Synthesis |
キーワード(3)(和/英) | ボコーダ / Vocoder |
キーワード(4)(和/英) | ピッチ同期分析 / Pitch-synchronous analysis |
キーワード(5)(和/英) | 位相スペクトル / Phase spectrum |
キーワード(6)(和/英) | 群遅延 / Group delay |
第 1 著者 氏名(和/英) | 田村 正統 / Masatsune Tamura |
第 1 著者 所属(和/英) | 株式会社東芝(略称:東芝) Toshiba Corporation(略称:Toshiba) |
第 2 著者 氏名(和/英) | 森中 亮 / Ryo Morinaka |
第 2 著者 所属(和/英) | 株式会社東芝(略称:東芝) Toshiba Corporation(略称:Toshiba) |
第 3 著者 氏名(和/英) | 森田 眞弘 / Masahiro Morita |
第 3 著者 所属(和/英) | 株式会社東芝(略称:東芝) Toshiba Corporation(略称:Toshiba) |
発表年月日 | 2016-01-14 |
資料番号 | SP2015-91 |
巻番号(vol) | vol.115 |
号番号(no) | SP-392 |
ページ範囲 | pp.33-38(SP), |
ページ数 | 6 |
発行日 | 2016-01-07 (SP) |