Multi-stream FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル

山下 陽生; 岡本 拓磨; 高島 遼一; 滝口 哲也; 戸田 智基; 河井 恒

講演名	2023-02-28 Multi-stream FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル山下陽生(神戸大/NICT), 岡本拓磨(NICT), 高島遼一(神戸大), 滝口哲也(神戸大), 戸田智基(名大/NICT), 河井恒(NICT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年テキスト音声合成~(Text-to-Speech:~TTS)では品質を保ったまま推論速度を向上することが求められており，そのためニューラルボコーダの高速化が研究されている．Multi-Stream~(MS) iSTFT-HiFi-GANは1CPUでも音声波形を推論可能なボコーダであるHiFi-GANの高速モデルとして提案され，VITSを用いたTTSタスクにおいて若干の音質の劣化があったものの約4倍の高速化がなされた．そこで本稿では，MS-iSTFT-HiFiGANの合成品質向上を目的として逆短時間フーリエ変換~(iSTFT)部を学習可能な全結合層へと変更したMS-FC-HiFi-GANを提案する．このモデルについて，分析合成タスクとテキスト音声合成タスクの2つのタスクにおいて推論速度，合成品質を既存のHiFi-GANの高速モデルと比較を行った．実験の結果，分析合成タスクにおける提案モデルの推論速度は1CPUにおいて0.15のReal Time Factorとなり，MS-iSTFT-HiFiGANと同程度であることが確認された．また提案モデルの合成品質は，TTSタスクではMS-iSTFT-HiFiGANに劣ったものの分析合成では上回る結果となった．
抄録(英)	In recent years, in text-to-speech synthesis, it is required to improve the inference speed while keeping the quality. Multi-stream(MS) iSTFT-HiFiGAN was proposed as a high-speed model of HiFi-GAN, a vocoder capable of inferring waveforms on single CPU. In the TTS task using VITS, although there was some deterioration in sound quality, the speed was increased by about 4 times. In this paper, we propose a MS-FC-HiFi-GAN in which the inverse short-time Fourier transform (iSTFT) part is changed to trainable fully connected layer for the purpose of improving the synthesis quality of the MS-iSTFT-HiFiGAN. As for the inference speed, RTF was 0.15 on 1 CPU, which is the same as MS-iSTFT-HiFiGAN. Synthesis quality was inferior to that of MS-iSTFT-HiFiGAN in TTS task, but was superior to thatin analysis/synthesis task.
キーワード(和)	音声合成 / ニューラルボコーダ / HiFi-GAN / Text-to-Speech / 分析合成
キーワード(英)	speech synthesis / Neural Vocoder / HiFi-GAN / Text-to-Speech / Analysis Synthesis
資料番号	EA2022-76,SIP2022-120,SP2022-40
発行日	2023-02-21 (EA, SIP, SP)

研究会情報
研究会	SP / IPSJ-SLP / EA / SIP
開催期間	2023/2/28(から2日開催)
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	音声，応用／電気音響, 信号処理，一般
テーマ（英）
委員長氏名（和）	戸田智基(名大) / 戸田智基(名大) / 古家賢一(大分大) / 田中聡久(東京農工大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
副委員長氏名（和）	/ / 加古達也(NTT) / 小野順貴(都立大) / 市毛弘一(横浜国大) / 仲地孝之(琉球大学)
副委員長氏名（英）	/ / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名（和）	増村亮(NTT) / 中鹿亘(電通大) / 増村亮(NTT) / 中鹿亘(電通大) / 若山圭吾(NTT) / 西浦敬信(立命館大) / 田中雄一(東京農工大) / 京地清介(北九州市大)
幹事氏名（英）	Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大) / 相原龍(三菱電機) / 齋藤大輔(東大) / 中山雅人(大阪産業大) / 矢田部浩平(東京農工大) / 吉田太一(電通大) / 今泉祥子(千葉大)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語	JPN
タイトル（和）	Multi-stream FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル
サブタイトル（和）
タイトル（英）	Multi-stream FC-HiFi-GAN:Fast Neural Vocoder Model Using Learnable Lightweight Upsampling
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	ニューラルボコーダ / Neural Vocoder
キーワード(3)（和/英）	HiFi-GAN / HiFi-GAN
キーワード(4)（和/英）	Text-to-Speech / Text-to-Speech
キーワード(5)（和/英）	分析合成 / Analysis Synthesis
第 1 著者氏名（和/英）	山下陽生 / Haruki Yamashita
第 1 著者所属（和/英）	神戸大学/国立研究開発法人情報通信研究機構(略称：神戸大/NICT) Kobe University/National Institute of Information and Communications Technology(略称：Kobe Univ/NICT)
第 2 著者氏名（和/英）	岡本拓磨 / Takuma Okamoto
第 2 著者所属（和/英）	国立研究開発法人情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
第 3 著者氏名（和/英）	高島遼一 / Ryoichi Takashima
第 3 著者所属（和/英）	神戸大学(略称：神戸大) Kobe University(略称：Kobe Univ)
第 4 著者氏名（和/英）	滝口哲也 / Tetsuya Takiguchi
第 4 著者所属（和/英）	神戸大学(略称：神戸大) Kobe University(略称：Kobe Univ)
第 5 著者氏名（和/英）	戸田智基 / Tomoki Toda
第 5 著者所属（和/英）	名古屋大学/国立研究開発法人情報通信研究機構(略称：名大/NICT) Nagoya University/National Institute of Information and Communications Technology(略称：Nagoya Univ/NICT)
第 6 著者氏名（和/英）	河井恒 / Hisashi Kawai
第 6 著者所属（和/英）	国立研究開発法人情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
発表年月日	2023-02-28
資料番号	EA2022-76,SIP2022-120,SP2022-40
巻番号（vol）	vol.122
号番号（no）	EA-387,SIP-388,SP-389
ページ範囲	pp.7-12(EA), pp.7-12(SIP), pp.7-12(SP),
ページ数	6
発行日	2023-02-21 (EA, SIP, SP)