講演名 | 2023-02-28 基本周波数制御可能な高速ニューラル波形生成モデルの比較 清水 聡太(神戸大/NICT), 岡本 拓磨(NICT), 高島 遼一(神戸大), 滝口 哲也(神戸大), 戸田 智基(名大/NICT), 河井 恒(NICT), |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 深層ニューラルネットワークを用いて音響特徴量から音声波形を生成するニューラルボコーダは,従来のソースフィルタボコーダに比べ,合成音声の品質を大幅に向上させており,高速かつ高品質なニューラルボコーダが数多く提案されている.ニューラルボコーダは従来のソースフィルタボコーダと同様に,基本周波数~($f_{mathrm{o}}$)などの属性を柔軟に制御することが必要とされる.これに対し,$f_{mathrm{o}}$の制御性能を維持しつつ,高品質かつCPUのみでもリアルタイム合成可能なモデルとしてHarmonic-Net+やSiFi-GANが提案されている.本研究では,未知話者合成において,~($f_{mathrm{o}}$)制御可能な高速ニューラル波形生成モデルであるHarmonic-Net+,MS-Harmonic-Net+,SiFi-GANの比較を行う. |
抄録(英) | Neural vocoders, which reconstruct speech waveforms from acoustic features with deep neural networks, have significantly improved synthetic speech quality compared to conventional source-filter vocoders. Neural vocoders, like conventional source filter vocoders, are required to be able to flexibly control attributes such as fundamental frequency ($f_{mathrm{o}}$). Harmonic-Net+ and SiFi-GAN have been proposed as models that can synthesize a speech waveform in real time on CPU, while maintaining controllability of $f_{mathrm{o}}$ and high synthetic speech quality. In this study, we conduct experiments to evaluate Harmonic-Net+, MS-Harmonic-Net+ and SiFi-GAN, which are fast neural vocoders with controllability of $f_{mathrm{o}}$ for unseen speaker synthesis. |
キーワード(和) | 音声合成 / ニューラルボコーダ / 基本周波数制御 / リアルタイム合成 |
キーワード(英) | speech synthesis / Neural vocoder / fundamental frequency control / real-time inference |
資料番号 | EA2022-75,SIP2022-119,SP2022-39 |
発行日 | 2023-02-21 (EA, SIP, SP) |
研究会情報 | |
研究会 | SP / IPSJ-SLP / EA / SIP |
---|---|
開催期間 | 2023/2/28(から2日開催) |
開催地(和) | 沖縄県立博物館・美術館 |
開催地(英) | |
テーマ(和) | 音声,応用/電気音響, 信号処理,一般 |
テーマ(英) | |
委員長氏名(和) | 戸田 智基(名大) / 戸田 智基(名大) / 古家 賢一(大分大) / 田中 聡久(東京農工大) |
委員長氏名(英) | Tomoki Toda(Nagoya Univ.) / Tomoki Toda(Nagoya Univ.) / Kenichi Furuya(Oita Univ.) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.) |
副委員長氏名(和) | / / 加古 達也(NTT) / 小野 順貴(都立大) / 市毛 弘一(横浜国大) / 仲地 孝之(琉球大学) |
副委員長氏名(英) | / / Tatsuya Kako(NTT) / Junki Ono(Tokyo Metropolitan Univ.) / Koichi Ichige(Yokohama National Univ.) / Takayuki Nakachi(Ryukyu Univ.) |
幹事氏名(和) | 増村 亮(NTT) / 中鹿 亘(電通大) / 増村 亮(NTT) / 中鹿 亘(電通大) / 若山 圭吾(NTT) / 西浦 敬信(立命館大) / 田中 雄一(東京農工大) / 京地 清介(北九州市大) |
幹事氏名(英) | Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT) / Toru Nakashika(Univ. of Electro-Comm.) / Keigo Wakayama(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Seisuke Kyochi(Univ. of Kitakyushu) |
幹事補佐氏名(和) | 相原 龍(三菱電機) / 齋藤 大輔(東大) / 相原 龍(三菱電機) / 齋藤 大輔(東大) / 中山 雅人(大阪産業大) / 矢田部 浩平(東京農工大) / 吉田 太一(電通大) / 今泉 祥子(千葉大) |
幹事補佐氏名(英) | Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Masato Nakayama(Osaka Sangyo Univ.) / Kouhei Yatabe(Tuat) / Taichi Yoshida(UEC) / Shoko Imaizumi(Chiba Univ.) |
講演論文情報詳細 | |
申込み研究会 | Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing |
---|---|
本文の言語 | JPN |
タイトル(和) | 基本周波数制御可能な高速ニューラル波形生成モデルの比較 |
サブタイトル(和) | |
タイトル(英) | Comparison of fundamental frequency controllable fast neural waveform generative models. |
サブタイトル(和) | |
キーワード(1)(和/英) | 音声合成 / speech synthesis |
キーワード(2)(和/英) | ニューラルボコーダ / Neural vocoder |
キーワード(3)(和/英) | 基本周波数制御 / fundamental frequency control |
キーワード(4)(和/英) | リアルタイム合成 / real-time inference |
第 1 著者 氏名(和/英) | 清水 聡太 / Sota Shimizu |
第 1 著者 所属(和/英) | 神戸大学/情報通信研究機構(略称:神戸大/NICT) Kobe University/National Institute of Information and Communications Technology(略称:Kobe Univ./NICT) |
第 2 著者 氏名(和/英) | 岡本 拓磨 / Takuma Okamoto |
第 2 著者 所属(和/英) | 情報通信研究機構(略称:NICT) National Institute of Information and Communications Technology(略称:NICT) |
第 3 著者 氏名(和/英) | 高島 遼一 / Ryoichi Takashima |
第 3 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Univ.) |
第 4 著者 氏名(和/英) | 滝口 哲也 / Tetsuya Takiguchi |
第 4 著者 所属(和/英) | 神戸大学(略称:神戸大) Kobe University(略称:Kobe Univ.) |
第 5 著者 氏名(和/英) | 戸田 智基 / Tomoki Toda |
第 5 著者 所属(和/英) | 名古屋大学/情報通信研究機構(略称:名大/NICT) Nagoya University/National Institute of Information and Communications Technology(略称:Nagoya Univ./NICT) |
第 6 著者 氏名(和/英) | 河井 恒 / Hisashi Kawai |
第 6 著者 所属(和/英) | 情報通信研究機構(略称:NICT) National Institute of Information and Communications Technology(略称:NICT) |
発表年月日 | 2023-02-28 |
資料番号 | EA2022-75,SIP2022-119,SP2022-39 |
巻番号(vol) | vol.122 |
号番号(no) | EA-387,SIP-388,SP-389 |
ページ範囲 | pp.1-6(EA), pp.1-6(SIP), pp.1-6(SP), |
ページ数 | 6 |
発行日 | 2023-02-21 (EA, SIP, SP) |