講演名 | 2023-06-24 全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル 山下 陽生(神戸大/NICT), 岡本 拓磨(NICT), 高島 遼一(神戸大), 大谷 大和(NICT), 滝口 哲也(神戸大), 戸田 智基(名大/NICT), 河井 恒(NICT), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 近年,VITSやJETSといったモデルを用いることで高速かつ高品質なテキスト音声合成~(Text-toSpeech:~TTS)が可能になった.しかし1つのCPUでのReal Time Factor~(RTF)は1弱であり,その品質を保ったまま更に推論速度を向上させることが求められている.ここでボコーダであるHiFi-GANが推論速度のボトルネックになっていることが知られており,HiFi-GANの高速化モデルとして,Multi-stream~(MS) HiFi-GAN,iSTFTNet,MS-iSTFT-HiFiGAN,などが提案されてきた.しかし本研究において,iSTFTNetの推論する中間特徴量はSTFT結果のスペクトログラムとは全く違う形になっており,特徴量を効率的に扱えていないことが分かった.そこで本稿では,iSTFT構造を全結合層(Fully Connected:~FC)に変更したFC構造をiSTFTNetとMS-iSTFT-HiFiGANに適応したFC-HiFi-GANとMS-FC-HiFiGANを提案する.FC構造を用いたモデルはiSTFT構造を用いるよりも中間特徴量を効率よく扱うことができ,VITS,JETSを用いたTTSによる合成品質の向上が確認された. |
抄録(英) | In recent years, in text-to-speech synthesis, it is required to improve the inference speed while keeping the quality. Multi-stream(MS) iSTFT-HiFiGAN was proposed as a high-speed model of HiFi-GAN, a vocoder capable of inferring waveforms on single CPU. In the TTS task using VITS, although there was some deterioration in sound quality, the speed was increased by about 4 times. In this paper, we propose a MS-FC-HiFiGAN in which the inverse short-time Fourier transform (iSTFT) part is changed to trainable fully connected layer for the purpose of improving the synthesis quality of the MS-iSTFT-HiFiGAN. As for the inference speed, RTF was 0.15 on 1 CPU, which is the same as MS-iSTFT-HiFiGAN. Synthesis quality was inferior to that of MS-iSTFT-HiFiGAN in TTS task, but was superior to thatin analysis/synthesis task. |
キーワード(和) | 音声合成 / ニューラルボコーダ / HiFi-GAN / Text-to-Speech / 分析合成 |
キーワード(英) | speech synthesis / Neural Vocoder / HiFi-GAN / Text-to-Speech / Analysis Synthesis |
資料番号 | SP2023-15 |
発行日 | 2023-06-16 (SP) |
研究会情報 | |
研究会 | SP / IPSJ-MUS / IPSJ-SLP |
---|---|
開催期間 | 2023/6/23(から2日開催) |
開催地(和) | 電気通信大学 |
開催地(英) | |
テーマ(和) | 音学シンポジウム2023 |
テーマ(英) | |
委員長氏名(和) | 戸田 智基(名大) |
委員長氏名(英) | Tomoki Toda(Nagoya Univ.) |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | 安藤 厚志(NTT) / 橋本 佳(名工大) |
幹事氏名(英) | Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) |
幹事補佐氏名(和) | 相原 龍(三菱電機) / 齋藤 大輔(東大) |
幹事補佐氏名(英) | Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech / Special Interest Group on Music and Computer / Special Interest Group on Spoken Language Processing |
---|---|
本文の言語 | JPN |
タイトル(和) | 全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル |
サブタイトル(和) | |
タイトル(英) | Fast Neural Waveform Generation Model With Fully Connected Layer |
サブタイトル(和) | |
キーワード(1)(和/英) | 音声合成 / speech synthesis |
キーワード(2)(和/英) | ニューラルボコーダ / Neural Vocoder |
キーワード(3)(和/英) | HiFi-GAN / HiFi-GAN |
キーワード(4)(和/英) | Text-to-Speech / Text-to-Speech |
キーワード(5)(和/英) | 分析合成 / Analysis Synthesis |
第 1 著者 氏名(和/英) | 山下 陽生 / Haruki Yamashita |
第 1 著者 所属(和/英) | 神戸大学/情報通信研究機構(略称:神戸大/NICT) Kobe University/National Institute of Information and Communications Technology(略称:Kobe cniv/NICT) |
第 2 著者 氏名(和/英) | 岡本 拓磨 / Takuma Okamoto |
第 2 著者 所属(和/英) | 情報通信研究機構(略称:NICT) National Institute of Information and Communications Technology(略称:NICT) |
第 3 著者 氏名(和/英) | 高島 遼一 / Ryoichi Takashima |
第 3 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Univ) |
第 4 著者 氏名(和/英) | 大谷 大和 / Yamato Ohtani |
第 4 著者 所属(和/英) | 情報通信研究機構(略称:NICT) National Institute of Information and Communications Technology(略称:NICT) |
第 5 著者 氏名(和/英) | 滝口 哲也 / Tetsuya Takiguchi |
第 5 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Univ) |
第 6 著者 氏名(和/英) | 戸田 智基 / Tomoki Toda |
第 6 著者 所属(和/英) | 名古屋大学/情報通信研究機構(略称:名大/NICT) Nagoya University/National Institute of Information and Communications Technology(略称:Nagoya Univ/NICT) |
第 7 著者 氏名(和/英) | 河井 恒 / Hisashi Kawai |
第 7 著者 所属(和/英) | 情報通信研究機構(略称:NICT) National Institute of Information and Communications Technology(略称:NICT) |
発表年月日 | 2023-06-24 |
資料番号 | SP2023-15 |
巻番号(vol) | vol.123 |
号番号(no) | SP-88 |
ページ範囲 | pp.73-78(SP), |
ページ数 | 6 |
発行日 | 2023-06-16 (SP) |