［ポスター講演］WaveNetボコーダにおける複数話者学習時の音声品質の向上

吉田 悟; 上ノ原 進吾; 古家 賢一

講演名	2021-12-22 ［ポスター講演］WaveNetボコーダにおける複数話者学習時の音声品質の向上吉田悟(大分大), 上ノ原進吾(大分大), 古家賢一(大分大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	近年, ニューラルネットワークを用いた音声合成や声質変換技術が注目を集めており, 自然性の高い音声を合成することが可能である. WaveNet ボコーダのようなニューラルボコーダの学習には, 目標話者の音声が大量に必要です. これまで, 複数話者(目標話者以外の話者) の音声を学習させた研究が行われてきている. しかし, 複数話者の音声で学習させたWaveNet ボコーダの合成音声は, 目標話者の音声で学習させたものに比べて, 合成音声の音声品質が劣化するという問題がある. 本研究では, 複数話者学習を前提としたWaveNet ボコーダの音声品質向上のために, 従来のWaveNet に新たに畳み込み層を追加する手法を提案する. また, 目標話者の少量の学習データでファインチューニングすることで音声品質が向上するかも確認する. 評価実験の結果から, 提案手法は従来手法と比べ, 音声品質が向上したことを確認する.
抄録(英)	In recent years, speech synthesis and voice quality conversion techniques using neural networks have attracted much attention and are capable of synthesizing speech with high naturalness. In order to train a neural vocoder such as WaveNet vocoder, a large amount of speech of the target speaker is required. So far, research has been conducted on training speech of multiple speakers (speakers other than the target speaker). However, there is a problem that the speech quality of the synthesized speech of the WaveNet vocoder trained with the speech of multiple speakers is degraded compared with that trained with the speech of the target speaker. In this study, we propose a method of adding a new convolutional layer to the conventionalWaveNet in order to improve the speech quality of theWaveNet vocoder based on multi-speaker learning. We also confirm whether the speech quality can be improved by fine tuning with a small amount of training data of the target speaker. From the results of evaluation experiments, we confirm that the proposed method improves the speech quality compared to the conventional method.
キーワード(和)	ボコーダ / WaveNet / 音声合成 / 深層学習
キーワード(英)	Vocoder / WaveNet / Speech Synthesis / Deep Learning
資料番号	EA2021-57
発行日	2021-12-15 (EA)

研究会情報
研究会	EA / US
開催期間	2021/12/22(から2日開催)
開催地（和）	崇城大学メインキャンパス SoLA2階（熊本県熊本市西区池田4-22-1）
開催地（英）	Sojo University
テーマ（和）	＜音響・超音波サブソサイエティ合同研究会＞応用／電気音響，超音波一般
テーマ（英）	[Joint Meeting on Acoustics and Ultrasonics Subsociety] Engineering/Electro Acoustics, Ultrasonics, etc.
委員長氏名（和）	梶川嘉延(関西大) / 小池義和(芝浦工大)
委員長氏名（英）	Yoshinobu Kajikawa(Kansai Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.)
副委員長氏名（和）	古家賢一(大分大) / 小山翔一(東大) / 三浦光(日大) / 中村健太郎(東工大)
副委員長氏名（英）	Kenichi Furuya(Oita Univ.) / Shoichi Koyama(Univ. of Tokyo) / Hikaru Miura(Nihon Univ.) / Kentaro Nakamura(Tokyo Inst. of Tech.)
幹事氏名（和）	加古達也(NTT) / 西浦敬信(立命館大) / 荒川元孝(東北大) / 平田慎之介(千葉大)
幹事氏名（英）	Tatsuya Kako(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Hirata(Chiba Univ.)
幹事補佐氏名（和）	若林佑幸(都立大) / 小松達也(LINE) / 吉澤晋(東北大)
幹事補佐氏名（英）	Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shin Yoshizawa(Tohoku Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics
本文の言語	JPN
タイトル（和）	［ポスター講演］WaveNetボコーダにおける複数話者学習時の音声品質の向上
サブタイトル（和）
タイトル（英）	[Poster Presentation] Improved voice quality due to multi-speaker learning with WaveNet vocoder
サブタイトル（和）
キーワード(1)（和/英）	ボコーダ / Vocoder
キーワード(2)（和/英）	WaveNet / WaveNet
キーワード(3)（和/英）	音声合成 / Speech Synthesis
キーワード(4)（和/英）	深層学習 / Deep Learning
第 1 著者氏名（和/英）	吉田悟 / Satoshi Yoshida
第 1 著者所属（和/英）	大分大学(略称：大分大) Oita University(略称：Oita Univ.)
第 2 著者氏名（和/英）	上ノ原進吾 / Shingo Uenohara
第 2 著者所属（和/英）	大分大学(略称：大分大) Oita University(略称：Oita Univ.)
第 3 著者氏名（和/英）	古家賢一 / Ken'ichi Furuya
第 3 著者所属（和/英）	大分大学(略称：大分大) Oita University(略称：Oita Univ.)
発表年月日	2021-12-22
資料番号	EA2021-57
巻番号（vol）	vol.121
号番号（no）	EA-311
ページ範囲	pp.1-6(EA),
ページ数	6
発行日	2021-12-15 (EA)