x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価

日田 光紀; 岡本 拓磨; 西村 竜一; 大谷 大和; 戸田 智基; 河井 恒

講演名	2023-06-24 x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価日田光紀(和歌山大/NICT), 岡本拓磨(NICT), 西村竜一(和歌山大), 大谷大和(NICT), 戸田智基(名大/NICT), 河井恒(NICT),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	これまでに，合成時に対応できる話者数の増加を目的として，音声認識用コーパスであるCSJを用いて，また話者埋め込みとしてx-vectorを用いた複数話者テキスト音声合成を最新のEnd-to-EndモデルであるJETSを用いて実装した．本研究においては，未知話者として日本語話者10名(CSJとJVS)，英語話者4名(CMU ARCTIC)，発話スタイルとして裏声およびささやき声(JVS)を目的話者とすることにより，本モデルの実用性について検証する．また，感情音声(JECS)とボーカロイド音声(初音ミク)に関しても，目的話者として検証する．分析として，t-SNEを用いて次元削減したx-vectorの比較を行った．これにより，本モデルによる合成音声が目的話者の話者性を再現可能であるかを検討した．
抄録(英)	We have implemented multi-speaker end-to-end text-to-speech synthesis based on JETS using x-vectors as speaker embedding and CSJ for automatic speech recognition corpus for synthesizing various kinds of speakers. In this study, we investigate the capacity of the model by using 10 Japanese speakers (CSJ and JVS) and 4 English speakers (CMU ARCTIC) as unknown speakers, and speech styles such as backward speech and whispered speech as target speakers. In addition, emotional voice (JECS) and vocaloid voice (Hatsune Miku) are also tested as target speakers. We compared x-vectors with dimensionality reduction based on t-SNE. The results examine whether the model is able to reproduce the target speaker's speech.
キーワード(和)	JETS / 複数話者テキスト音声合成 / 話者適応 / 話者埋め込み / x-vector
キーワード(英)	JETS / multi-speaker text-to-speech / speaker adaptation / speaker embedding / x-vector
資料番号	SP2023-25
発行日	2023-06-16 (SP)

研究会情報
研究会	SP / IPSJ-MUS / IPSJ-SLP
開催期間	2023/6/23(から2日開催)
開催地（和）	電気通信大学
開催地（英）
テーマ（和）	音学シンポジウム2023
テーマ（英）
委員長氏名（和）	戸田智基(名大)
委員長氏名（英）	Tomoki Toda(Nagoya Univ.)
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）	安藤厚志(NTT) / 橋本佳(名工大)
幹事氏名（英）	Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.)
幹事補佐氏名（和）	相原龍(三菱電機) / 齋藤大輔(東大)
幹事補佐氏名（英）	Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Special Interest Group on Music and Computer / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価
サブタイトル（和）
タイトル（英）	Evaluation of multi-speaker text-to-speech synthesis using a corpus for speech recognition with x-vectors for various speech styles
サブタイトル（和）
キーワード(1)（和/英）	JETS / JETS
キーワード(2)（和/英）	複数話者テキスト音声合成 / multi-speaker text-to-speech
キーワード(3)（和/英）	話者適応 / speaker adaptation
キーワード(4)（和/英）	話者埋め込み / speaker embedding
キーワード(5)（和/英）	x-vector / x-vector
第 1 著者氏名（和/英）	日田光紀 / Koki Hida
第 1 著者所属（和/英）	和歌山大学/情報通信研究機構(略称：和歌山大/NICT) Wakayama University/National Institute of Information and Communications Technology(略称：Wakayama Univ/NICT)
第 2 著者氏名（和/英）	岡本拓磨 / Takuma Okamoto
第 2 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
第 3 著者氏名（和/英）	西村竜一 / Ryuichi Nisimura
第 3 著者所属（和/英）	和歌山大学(略称：和歌山大) Wakayama University(略称：Wakayama Univ)
第 4 著者氏名（和/英）	大谷大和 / Yamato Ohtani
第 4 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
第 5 著者氏名（和/英）	戸田智基 / Tomoki Toda
第 5 著者所属（和/英）	名古屋大学/情報通信研究機構(略称：名大/NICT) Nagoya University/National Institute of Information and Communications Technology(略称：Nagoya Univ/NICT)
第 6 著者氏名（和/英）	河井恒 / Hisashi Kawai
第 6 著者所属（和/英）	情報通信研究機構(略称：NICT) National Institute of Information and Communications Technology(略称：NICT)
発表年月日	2023-06-24
資料番号	SP2023-25
巻番号（vol）	vol.123
号番号（no）	SP-88
ページ範囲	pp.125-130(SP),
ページ数	6
発行日	2023-06-16 (SP)