講演名 2021-12-22
[ポスター講演]WaveNetボコーダにおける複数話者学習時の音声品質の向上
吉田 悟(大分大), 上ノ原 進吾(大分大), 古家 賢一(大分大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年, ニューラルネットワークを用いた音声合成や声質変換技術が注目を集めており, 自然性の高い音声を合成することが可能である. WaveNet ボコーダのようなニューラルボコーダの学習には, 目標話者の音声が大量に必要です. これまで, 複数話者(目標話者以外の話者) の音声を学習させた研究が行われてきている. しかし, 複数話者の音声で学習させたWaveNet ボコーダの合成音声は, 目標話者の音声で学習させたものに比べて, 合成音声の音声品質が劣化するという問題がある. 本研究では, 複数話者学習を前提としたWaveNet ボコーダの音声品質向上のために, 従来のWaveNet に新たに畳み込み層を追加する手法を提案する. また, 目標話者の少量の学習データでファインチューニングすることで音声品質が向上するかも確認する. 評価実験の結果から, 提案手法は従来手法と比べ, 音声品質が向上したことを確認する.
抄録(英) In recent years, speech synthesis and voice quality conversion techniques using neural networks have attracted much attention and are capable of synthesizing speech with high naturalness. In order to train a neural vocoder such as WaveNet vocoder, a large amount of speech of the target speaker is required. So far, research has been conducted on training speech of multiple speakers (speakers other than the target speaker). However, there is a problem that the speech quality of the synthesized speech of the WaveNet vocoder trained with the speech of multiple speakers is degraded compared with that trained with the speech of the target speaker. In this study, we propose a method of adding a new convolutional layer to the conventionalWaveNet in order to improve the speech quality of theWaveNet vocoder based on multi-speaker learning. We also confirm whether the speech quality can be improved by fine tuning with a small amount of training data of the target speaker. From the results of evaluation experiments, we confirm that the proposed method improves the speech quality compared to the conventional method.
キーワード(和) ボコーダ / WaveNet / 音声合成 / 深層学習
キーワード(英) Vocoder / WaveNet / Speech Synthesis / Deep Learning
資料番号 EA2021-57
発行日 2021-12-15 (EA)

研究会情報
研究会 EA / US
開催期間 2021/12/22(から2日開催)
開催地(和) 崇城大学 メインキャンパス SoLA2階 (熊本県熊本市西区池田4-22-1)
開催地(英) Sojo University
テーマ(和) <音響・超音波サブソサイエティ合同研究会>応用/電気音響,超音波一般
テーマ(英) [Joint Meeting on Acoustics and Ultrasonics Subsociety] Engineering/Electro Acoustics, Ultrasonics, etc.
委員長氏名(和) 梶川 嘉延(関西大) / 小池 義和(芝浦工大)
委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.)
副委員長氏名(和) 古家 賢一(大分大) / 小山 翔一(東大) / 三浦 光(日大) / 中村 健太郎(東工大)
副委員長氏名(英) Kenichi Furuya(Oita Univ.) / Shoichi Koyama(Univ. of Tokyo) / Hikaru Miura(Nihon Univ.) / Kentaro Nakamura(Tokyo Inst. of Tech.)
幹事氏名(和) 加古 達也(NTT) / 西浦 敬信(立命館大) / 荒川 元孝(東北大) / 平田 慎之介(千葉大)
幹事氏名(英) Tatsuya Kako(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Hirata(Chiba Univ.)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE) / 吉澤 晋(東北大)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shin Yoshizawa(Tohoku Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics
本文の言語 JPN
タイトル(和) [ポスター講演]WaveNetボコーダにおける複数話者学習時の音声品質の向上
サブタイトル(和)
タイトル(英) [Poster Presentation] Improved voice quality due to multi-speaker learning with WaveNet vocoder
サブタイトル(和)
キーワード(1)(和/英) ボコーダ / Vocoder
キーワード(2)(和/英) WaveNet / WaveNet
キーワード(3)(和/英) 音声合成 / Speech Synthesis
キーワード(4)(和/英) 深層学習 / Deep Learning
第 1 著者 氏名(和/英) 吉田 悟 / Satoshi Yoshida
第 1 著者 所属(和/英) 大分大学(略称:大分大)
Oita University(略称:Oita Univ.)
第 2 著者 氏名(和/英) 上ノ原 進吾 / Shingo Uenohara
第 2 著者 所属(和/英) 大分大学(略称:大分大)
Oita University(略称:Oita Univ.)
第 3 著者 氏名(和/英) 古家 賢一 / Ken'ichi Furuya
第 3 著者 所属(和/英) 大分大学(略称:大分大)
Oita University(略称:Oita Univ.)
発表年月日 2021-12-22
資料番号 EA2021-57
巻番号(vol) vol.121
号番号(no) EA-311
ページ範囲 pp.1-6(EA),
ページ数 6
発行日 2021-12-15 (EA)