講演名 2018-03-19
音素事後確率とd-vectorを用いたVariational Autoencoderによるノンパラレル多対多音声変換
齋藤 佑樹(NTT/東大), 井島 勇祐(NTT), 西田 京介(NTT), 高道 慎之介(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 話者コードで条件付けされたVariational AutoEncoder (VAE) を用いた従来のノンパラレル音声変換では,発話内容を表す潜在変数の過剰な正則化により,変換音声の品質が著しく劣化する.これに対し,本稿では,話者コードのみならず,学習済みの音声認識モデルの予測結果として得られる音素事後確率で条件付けされたVAE の学習法を提案する.本稿ではさらに,一対一VAE 音声変換を任意話者対での変換が可能な多対多音声変換に拡張するための手法として,(1) 話者コードの適応,及び(2) 話者認証において有効な$d$-vector を用いた学習・変換法を比較する.実験的評価により,(1) 音素事後確率の導入により変換音声の品質が劇的に改善すること,及び(2) 話者コードと $d$-vector の両方がノンパラレル多対多VAE 音声変換に適用可能であることを示す.
抄録(英) This paper proposes novel frameworks for non-parallel and many-to-many voice conversion (VC) using variational autoencoders (VAEs). In conventional VAE-based VC, converted speech quality is significantly degraded due to an over-regularization of latent variables representing phonetic contents. To overcome the issue, this paper proposes a VAE-based non-parallel VC conditioned by not only the speaker codes but also phonetic posteriorgrams (PPGs) predicted from pre-trained speech recognition models. This paper also extends the conventional VC to many-to-many VC that can convert arbitrary speakers’ characteristics into another ones. We compare two methods to realize this: 1) speaker code adaptation, and 2) the use of $d$-vectors obtained by using pre-trained speaker verification models. Experimental results demonstrate that 1) PPGs successfully improve converted speech quality, and 2) both speaker codes and $d$-vectors can be adopted to the VAE-based non-parallel and many-to-many VC.
キーワード(和) ノンパラレル音声変換 / 多対多音声変換 / variational autoencoder / 音素事後確率 / d-vector
キーワード(英) non-parallel voice conversion / many-to-many voice conversion / variational autoencoders / phonetic posteriorgrams / d-vectors
資料番号 EA2017-105,SIP2017-114,SP2017-88
発行日 2018-03-12 (EA, SIP, SP)

研究会情報
研究会 SIP / EA / SP / MI
開催期間 2018/3/19(から2日開催)
開催地(和) 石垣島 ホテルミヤヒラ
開催地(英)
テーマ(和) 音声,応用/電気音響,信号処理,一般 [SIP,EA,SP]/ 医用画像工学一般 [MI]
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics [SIP, EA, SP]/ Medical Image Engineering, Analysis, Recognition, etc. [MI]
委員長氏名(和) 奥田 正浩(北九州市大) / 島内 末廣(NTT) / 山下 洋一(立命館大) / 森 健策(名大)
委員長氏名(英) Masahiro Okuda(Univ. of Kitakyushu) / Suehiro Shimauchi(NTT) / Yoichi Yamashita(Ritsumeikan Univ.) / Kensaku Mori(Nagoya Univ.)
副委員長氏名(和) 村松 正吾(新潟大) / 相川 直幸(東京理科大) / 水町 光徳(九州工業大) / 森 大毅(宇都宮大) / 河田 佳樹(徳島大) / 木村 裕一(近畿大)
副委員長氏名(英) Shogo Muramatsu(Niigata Univ.) / Naoyuki Aikawa(TUS) / Mitsunori Mizumachi(Kyutech) / Hiroki Mori(Utsunomiya Univ.) / Yoshiki Kawata(Tokushima Univ.) / Yuichi Kimura(Kinki Univ.)
幹事氏名(和) 宮田 高道(千葉工大) / 渡邊 修(拓殖大) / 渡邉 貫治(秋田県立大) / 武岡 成人(静岡理工科大) / 西田 昌史(静岡大) / 坂野 秀樹(名城大) / 北坂 孝幸(愛知工大) / 本谷 秀堅(名工大)
幹事氏名(英) Takamichi Miyata(Chiba Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Kanji Watanabe(Akita Pref. Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / Masafumi Nishida(Shizuoka Univ.) / Hideki Banno(Meijo Univ.) / Takayuki Kitasaka(Aichi Inst. of Tech.) / Hidekata Hontani(Nagoya Inst. of Tech.)
幹事補佐氏名(和) 中本 昌由(広島大) / TREVINO Jorge(東北大) / 伊藤 信貴(NTT) / 橋本 佳(名工大) / 小橋川 哲(NTT) / 原口 亮(兵庫県立大) / 平野 靖(山口大)
幹事補佐氏名(英) Masayoshi Nakamoto(Hiroshima Univ.ひろ) / TREVINO Jorge(Tohoku Univ.) / Nobutaka Ito(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Satoshi Kobashikawa(NTT) / Ryo Haraguchi(Univ. of Hyogo) / Yasushi Hirano(Yamaguchi Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics / Technical Committee on Speech / Technical Committee on Medical Imaging
本文の言語 JPN
タイトル(和) 音素事後確率とd-vectorを用いたVariational Autoencoderによるノンパラレル多対多音声変換
サブタイトル(和)
タイトル(英) Non-parallel and Many-to-Many Voice Conversion Using Variational Autoencoder Conditioned by Phonetic Posteriorgrams and d-vectors
サブタイトル(和)
キーワード(1)(和/英) ノンパラレル音声変換 / non-parallel voice conversion
キーワード(2)(和/英) 多対多音声変換 / many-to-many voice conversion
キーワード(3)(和/英) variational autoencoder / variational autoencoders
キーワード(4)(和/英) 音素事後確率 / phonetic posteriorgrams
キーワード(5)(和/英) d-vector / d-vectors
第 1 著者 氏名(和/英) 齋藤 佑樹 / Yuki Saito
第 1 著者 所属(和/英) 日本電信電話株式会社 NTT メディアインテリジェンス研究所/東京大学(略称:NTT/東大)
NTT Media Intelligence Laboratories, NTT Corporation/The University of Tokyo(略称:NTT/Univ. of Tokyo)
第 2 著者 氏名(和/英) 井島 勇祐 / Yusuke Ijima
第 2 著者 所属(和/英) 日本電信電話株式会社 NTT メディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories, NTT Corporation(略称:NTT)
第 3 著者 氏名(和/英) 西田 京介 / Kyosuke Nishida
第 3 著者 所属(和/英) 日本電信電話株式会社 NTT メディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories, NTT Corporation(略称:NTT)
第 4 著者 氏名(和/英) 高道 慎之介 / Shinnosuke Takamichi
第 4 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:Univ. of Tokyo)
発表年月日 2018-03-19
資料番号 EA2017-105,SIP2017-114,SP2017-88
巻番号(vol) vol.117
号番号(no) EA-515,SIP-516,SP-517
ページ範囲 pp.21-26(EA), pp.21-26(SIP), pp.21-26(SP),
ページ数 6
発行日 2018-03-12 (EA, SIP, SP)