多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム

仲井 佑友輔; 宇田川 健太; 齋藤 佑樹; 猿渡 洋

講演名	2022-03-01 多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム仲井佑友輔(東大), 宇田川健太(東大), 齋藤佑樹(東大), 猿渡洋(東大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本稿では，Adversarial Reguralizer を考慮した敵対学習による多話者音声合成モデルを提案する．従来法では，識別的なタスクによって事前学習した Speaker Encoder から目的話者の話者埋め込みを抽出し，音声合成ネットワークに入力を行う．しかし，学習された話者埋め込みの分布する特徴量空間は音声合成ネットワークにとって必ずしも解釈性が高いとは限らず，未知話者の話者埋め込みを上手く抽出できる保証が無いという問題があった．提案法では，事前学習済みの話者埋め込み空間をうまく解釈できる音声合成ネットワークの構築を目的とし，学習アルゴリズムとして Adversarial Reguralizer を考慮した敵対学習を提案する．提案法では，話者埋め込みを混合して合成した音声の特徴量と，自然音声の特徴量が識別不可能となるような正則化項を考慮して音声合成ネットワークを学習する．実験的評価により，提案法が合成音声の話者類似性と，話者モーフィングの操作性を改善する傾向にあることを示す．
抄録(英)
キーワード(和)	DNN音声合成 / 転移学習 / 敵対学習 / 話者モーフィング / 話者埋め込み
キーワード(英)
資料番号	EA2021-72,SIP2021-99,SP2021-57
発行日	2022-02-22 (EA, SIP, SP)

研究会情報
研究会	EA / SIP / SP / IPSJ-SLP
開催期間	2022/3/1(から2日開催)
開催地（和）	沖縄県立博物館・美術館
開催地（英）
テーマ（和）	応用／電気音響, 信号処理，音声，一般
テーマ（英）
委員長氏名（和）	梶川嘉延(関西大) / 坂東幸浩(NTT) / 北岡教英(豊橋技科大) / 北岡教英(豊橋技科大)
委員長氏名（英）	Yoshinobu Kajikawa(Kansai Univ.) / Yukihiro Bandou(NTT) / Norihide Kitaoka(Toyohashi Univ. of Tec) / 北岡教英(豊橋技科大)
副委員長氏名（和）	古家賢一(大分大) / 小山翔一(東大) / 田中聡久(東京農工大) / 仲地孝之(琉球大学)
副委員長氏名（英）	Kenichi Furuya(Oita Univ.) / Shoichi Koyama(Univ. of Tokyo) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.) / Takayuki Nakachi(Ryukyu Univ.)
幹事氏名（和）	加古達也(NTT) / 西浦敬信(立命館大) / 杉本憲治郎(Xiaomi) / 渡辺修(拓殖大) / 田中雄一(東京農工大) / 高道慎之介(東大) / 高島遼一(神戸大) / 高道慎之介(東大) / 高島遼一(神戸大) / 中鹿亘(電通大) / 増村亮(NTT)
幹事氏名（英）	Tatsuya Kako(NTT) / Takanobu Nishiura(RitsumeikanUniv.) / Kenjiro Sugimoto(Xiaomi) / Osamu Watanabe(Takushoku Univ.) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.) / Shinnosuke Takamichi(Univ. of Tokyo) / Ryouichi Takashima(Kobe Univ.) / 高道慎之介(東大) / 高島遼一(神戸大) / 中鹿亘(電通大) / 増村亮(NTT)
幹事補佐氏名（和）	若林佑幸(都立大) / 小松達也(LINE) / 吉田太一(電通大) / 京地清介(北九州市立大) / 中鹿亘(電通大) / 増村亮(NTT)
幹事補佐氏名（英）	Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Taichi Yoshida(UEC) / Seisuke Kyochi(Univ. of Kitakyushu) / Toru Nakashika(Univ. of Electro-Comm.) / Ryo Masumura(NTT)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing / Technical Committee on Speech / Special Interest Group on Spoken Language Processing
本文の言語	JPN-ONLY
タイトル（和）	多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム
サブタイトル（和）
タイトル（英）	Training Algorithm for Multispeaker Text-To-Speech Synthesis Considering Adversarial Regularizer
サブタイトル（和）
キーワード(1)（和/英）	DNN音声合成
キーワード(2)（和/英）	転移学習
キーワード(3)（和/英）	敵対学習
キーワード(4)（和/英）	話者モーフィング
キーワード(5)（和/英）	話者埋め込み
第 1 著者氏名（和/英）	仲井佑友輔 / Yusuke Nakai
第 1 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 2 著者氏名（和/英）	宇田川健太 / Kenta Udagawa
第 2 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 3 著者氏名（和/英）	齋藤佑樹 / Yuki Saito
第 3 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 4 著者氏名（和/英）	猿渡洋 / Hiroshi Saruwatari
第 4 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
発表年月日	2022-03-01
資料番号	EA2021-72,SIP2021-99,SP2021-57
巻番号（vol）	vol.121
号番号（no）	EA-383,SIP-384,SP-385
ページ範囲	pp.50-55(EA), pp.50-55(SIP), pp.50-55(SP),
ページ数	6
発行日	2022-02-22 (EA, SIP, SP)