講演名 2022-03-01
多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム
仲井 佑友輔(東大), 宇田川 健太(東大), 齋藤 佑樹(東大), 猿渡 洋(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,Adversarial Reguralizer を考慮した敵対学習による多話者音声合成モデルを提案する.従来法では,識別的なタスクによって事前学習した Speaker Encoder から目的話者の話者埋め込みを抽出し,音声合成ネットワークに入力を行う.しかし,学習された話者埋め込みの分布する特徴量空間は音声合成ネットワークにとって必ずしも解釈性が高いとは限らず,未知話者の話者埋め込みを上手く抽出できる保証が無いという問題があった.提案法では,事前学習済みの話者埋め込み空間をうまく解釈できる音声合成ネットワークの構築を目的とし,学習アルゴリズムとして Adversarial Reguralizer を考慮した敵対学習を提案する.提案法では,話者埋め込みを混合して合成した音声の特徴量と,自然音声の特徴量が識別不可能となるような正則化項を考慮して音声合成ネットワークを学習する.実験的評価により,提案法が合成音声の話者類似性と,話者モーフィングの操作性を改善する傾向にあることを示す.
抄録(英)
キーワード(和) DNN音声合成 / 転移学習 / 敵対学習 / 話者モーフィング / 話者埋め込み
キーワード(英)
資料番号 EA2021-72,SIP2021-99,SP2021-57
発行日 2022-02-22 (EA, SIP, SP)

研究会情報
研究会 EA / SIP / SP / IPSJ-SLP
開催期間 2022/3/1(から2日開催)
開催地(和) 沖縄県立博物館・美術館
開催地(英)
テーマ(和) 応用/電気音響, 信号処理,音声,一般
テーマ(英)
委員長氏名(和) 梶川 嘉延(関西大) / 坂東 幸浩(NTT) / 北岡 教英(豊橋技科大) / 北岡 教英(豊橋技科大)
委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.) / Yukihiro Bandou(NTT) / Norihide Kitaoka(Toyohashi Univ. of Tec) / 北岡 教英(豊橋技科大)
副委員長氏名(和) 古家 賢一(大分大) / 小山 翔一(東大) / 田中 聡久(東京農工大) / 仲地 孝之(琉球大学)
副委員長氏名(英) Kenichi Furuya(Oita Univ.) / Shoichi Koyama(Univ. of Tokyo) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名(和) 加古 達也(NTT) / 西浦 敬信(立命館大) / 杉本 憲治郎(Xiaomi) / 渡辺 修(拓殖大) / 田中 雄一(東京農工大) / 高道 慎之介(東大) / 高島 遼一(神戸大) / 高道 慎之介(東大) / 高島 遼一(神戸大) / 中鹿 亘(電通大) / 増村 亮(NTT)
幹事氏名(英) Tatsuya Kako(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Kenjiro Sugimoto(Xiaomi) / Osamu Watanabe(Takushoku Univ.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Shinnosuke Takamichi(Univ. of Tokyo) / Ryouichi Takashima(Kobe Univ.) / 高道 慎之介(東大) / 高島 遼一(神戸大) / 中鹿 亘(電通大) / 増村 亮(NTT)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE) / 吉田 太一(電通大) / 京地 清介(北九州市立大) / 中鹿 亘(電通大) / 増村 亮(NTT)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Taichi Yoshida(UEC) / Seisuke Kyochi(Univ. of Kitakyushu) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語 JPN-ONLY
タイトル(和) 多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム
サブタイトル(和)
タイトル(英) Training Algorithm for Multispeaker Text-To-Speech Synthesis Considering Adversarial Regularizer
サブタイトル(和)
キーワード(1)(和/英) DNN音声合成
キーワード(2)(和/英) 転移学習
キーワード(3)(和/英) 敵対学習
キーワード(4)(和/英) 話者モーフィング
キーワード(5)(和/英) 話者埋め込み
第 1 著者 氏名(和/英) 仲井 佑友輔 / Yusuke Nakai
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 宇田川 健太 / Kenta Udagawa
第 2 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 3 著者 氏名(和/英) 齋藤 佑樹 / Yuki Saito
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 4 著者 氏名(和/英) 猿渡 洋 / Hiroshi Saruwatari
第 4 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2022-03-01
資料番号 EA2021-72,SIP2021-99,SP2021-57
巻番号(vol) vol.121
号番号(no) EA-383,SIP-384,SP-385
ページ範囲 pp.50-55(EA), pp.50-55(SIP), pp.50-55(SP),
ページ数 6
発行日 2022-02-22 (EA, SIP, SP)