全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル

山下 陽生; 岡本 拓磨; 高島 遼一; 大谷 大和; 滝口 哲也; 戸田 智基; 河井 恒

講演名	2023-06-24 全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル山下陽生(神戸大/NICT), 岡本拓磨(NICT), 高島遼一(神戸大), 大谷大和(NICT), 滝口哲也(神戸大), 戸田智基(名大/NICT), 河井恒(NICT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年，VITSやJETSといったモデルを用いることで高速かつ高品質なテキスト音声合成~(Text-toSpeech:~TTS)が可能になった．しかし１つのCPUでのReal Time Factor~(RTF)は1弱であり，その品質を保ったまま更に推論速度を向上させることが求められている．ここでボコーダであるHiFi-GANが推論速度のボトルネックになっていることが知られており，HiFi-GANの高速化モデルとして，Multi-stream~(MS) HiFi-GAN，iSTFTNet，MS-iSTFT-HiFiGAN，などが提案されてきた．しかし本研究において，iSTFTNetの推論する中間特徴量はSTFT結果のスペクトログラムとは全く違う形になっており，特徴量を効率的に扱えていないことが分かった．そこで本稿では，iSTFT構造を全結合層(Fully Connected:~FC)に変更したFC構造をiSTFTNetとMS-iSTFT-HiFiGANに適応したFC-HiFi-GANとMS-FC-HiFiGANを提案する．FC構造を用いたモデルはiSTFT構造を用いるよりも中間特徴量を効率よく扱うことができ，VITS，JETSを用いたTTSによる合成品質の向上が確認された．
抄録(英)	In recent years, in text-to-speech synthesis, it is required to improve the inference speed while keeping the quality. Multi-stream(MS) iSTFT-HiFiGAN was proposed as a high-speed model of HiFi-GAN, a vocoder capable of inferring waveforms on single CPU. In the TTS task using VITS, although there was some deterioration in sound quality, the speed was increased by about 4 times. In this paper, we propose a MS-FC-HiFiGAN in which the inverse short-time Fourier transform (iSTFT) part is changed to trainable fully connected layer for the purpose of improving the synthesis quality of the MS-iSTFT-HiFiGAN. As for the inference speed, RTF was 0.15 on 1 CPU, which is the same as MS-iSTFT-HiFiGAN. Synthesis quality was inferior to that of MS-iSTFT-HiFiGAN in TTS task, but was superior to thatin analysis/synthesis task.
キーワード(和)	音声合成 / ニューラルボコーダ / HiFi-GAN / Text-to-Speech / 分析合成
キーワード(英)	speech synthesis / Neural Vocoder / HiFi-GAN / Text-to-Speech / Analysis Synthesis
資料番号	SP2023-15
発行日	2023-06-16 (SP)

研究会情報
研究会	SP / IPSJ-MUS / IPSJ-SLP
開催期間	2023/6/23(から2日開催)
開催地（和）	電気通信大学
開催地（英）
テーマ（和）	音学シンポジウム2023
テーマ（英）
委員長氏名（和）	戸田智基(名大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.)
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）	安藤厚志(NTT) / 橋本佳(名工大)
幹事氏名（英）	Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Special Interest Group on Music and Computer / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル
サブタイトル（和）
タイトル（英）	Fast Neural Waveform Generation Model With Fully Connected Layer
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	ニューラルボコーダ / Neural Vocoder
キーワード(3)（和/英）	HiFi-GAN / HiFi-GAN
キーワード(4)（和/英）	Text-to-Speech / Text-to-Speech
キーワード(5)（和/英）	分析合成 / Analysis Synthesis
第 1 著者氏名（和/英）	山下陽生 / Haruki Yamashita
第 1 著者所属（和/英）	神戸大学/情報通信研究機構(略称：神戸大/NICT) Kobe University/National Institute of Information and Communications Technology(略称：Kobe cniv/NICT)
第 2 著者氏名（和/英）	岡本拓磨 / Takuma Okamoto
第 2 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
第 3 著者氏名（和/英）	高島遼一 / Ryoichi Takashima
第 3 著者所属（和/英）	神戸大学(略称：神戸大) Kobe University(略称：Kobe Univ)
第 4 著者氏名（和/英）	大谷大和 / Yamato Ohtani
第 4 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
第 5 著者氏名（和/英）	滝口哲也 / Tetsuya Takiguchi
第 5 著者所属（和/英）	神戸大学(略称：神戸大) Kobe University(略称：Kobe Univ)
第 6 著者氏名（和/英）	戸田智基 / Tomoki Toda
第 6 著者所属（和/英）	名古屋大学/情報通信研究機構(略称：名大/NICT) Nagoya University/National Institute of Information and Communications Technology(略称：Nagoya Univ/NICT)
第 7 著者氏名（和/英）	河井恒 / Hisashi Kawai
第 7 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
発表年月日	2023-06-24
資料番号	SP2023-15
巻番号（vol）	vol.123
号番号（no）	SP-88
ページ範囲	pp.73-78(SP),
ページ数	6
発行日	2023-06-16 (SP)