講演名 2023-12-03
[ポスター講演]自己教師ありモデリに基づく感情豊かな音声合成のための感情転移と強度制御技術
李 巍(東大), 峯松 信明(東大), 齋藤 大輔(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和)
抄録(英) Emotion transfer techniques, which transfersba the speaking style from the reference speech to the target speech, are widely used for speech synthesis. However, previous methods using emotion classifier to disentangle the emotion components fail to transfer the correct emotion to the target speech in some contexts. To solve this problem, we introduce self-supervised learning model to improve the capability of emotion feature extraction. In addition, we utilize the relative attributes method to obtain the intensity labels for our emotional speech dataset. Experimental results indicate that our method can improve the performance of emotional speech synthesis model.
キーワード(和)
キーワード(英) Emotion TransferIntensity ControlSelf-supervised Learning ModelSpeech Synthesis
資料番号 NLC2023-21,SP2023-41
発行日 2023-11-25 (NLC, SP)

研究会情報
研究会 SP / NLC / IPSJ-SLP / IPSJ-NL
開催期間 2023/12/2(から3日開催)
開催地(和) 機械振興会館
開催地(英) Kikai-Shinko-Kaikan Bldg.
テーマ(和) 第25回音声言語および第10回自然言語処理シンポジウム
テーマ(英)
委員長氏名(和) 戸田 智基(名大) / 吉田 光男(筑波大) / 戸田 智基(名古屋大学) / 須藤 克仁(奈良先端科学技術大学院大学)
委員長氏名(英) Tomoki Toda(Nagoya Univ.) / Mitsuo Yoshida(Univ. of Tsukuba) / 戸田 智基(名古屋大学) / 須藤 克仁(奈良先端科学技術大学院大学)
副委員長氏名(和) / 坂地 泰紀(東大) / 小早川 健(NHK)
副委員長氏名(英) / Hiroki Sakaji(Univ. of Tokyo) / Takeshi Kobayakawa(NHK)
幹事氏名(和) 安藤 厚志(NTT) / 橋本 佳(名工大) / 光田 航(rinna) / 石野 亜耶(広島経済大) / 安藤 厚志(NTT) / 橋本 佳(名工大) / 齋藤 大輔(東京大学) / 相原 龍(三菱電機) / 井之上 直也(北陸先端科学技術大学院大学) / 内田 ゆず(北海学園大学) / 佐藤 敏紀(LINE株式会社) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所)
幹事氏名(英) Atsushi Ando(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Ko Mitsuda(rinna) / Aya Ishino(Hiroshima Univ. of Economics) / 安藤 厚志(NTT) / 橋本 佳(名工大) / 齋藤 大輔(東京大学) / 相原 龍(三菱電機) / 井之上 直也(北陸先端科学技術大学院大学) / 内田 ゆず(北海学園大学) / 佐藤 敏紀(LINE株式会社) / 萩行 正嗣(株式会社ウェザーニューズ) / 吉永 直樹(東京大学) / 吉野 幸一郎(理化学研究所)
幹事補佐氏名(和) 相原 龍(三菱電機) / 齋藤 大輔(東大) / 高橋 寛治(Sansan) / 小川 泰弘(名大)
幹事補佐氏名(英) Ryo Aihara(Mitsubishi Electric) / Daisuke Saito(Univ. of Tokyo) / Kanjin Takahashi(Sansan) / Yasuhiro Ogawa(Nagoya Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Spoken Language Processing / Special Interest Group on Natural Language
本文の言語 ENG-JTITLE
タイトル(和) [ポスター講演]自己教師ありモデリに基づく感情豊かな音声合成のための感情転移と強度制御技術
サブタイトル(和)
タイトル(英) [Poster Presentation] Self-supervised learning model based emotion transfer and intensity control technology for expressive speech synthesis
サブタイトル(和)
キーワード(1)(和/英) / Emotion TransferIntensity ControlSelf-supervised Learning ModelSpeech Synthesis
第 1 著者 氏名(和/英) 李 巍 / Wei Li
第 1 著者 所属(和/英) 東京大学(略称:東大)
the University of Tokyo(略称:Univ. of Tokyo)
第 2 著者 氏名(和/英) 峯松 信明 / Nobuaki Minematsu
第 2 著者 所属(和/英) 東京大学(略称:東大)
the University of Tokyo(略称:Univ. of Tokyo)
第 3 著者 氏名(和/英) 齋藤 大輔 / Daisuke Saito
第 3 著者 所属(和/英) 東京大学(略称:東大)
the University of Tokyo(略称:Univ. of Tokyo)
発表年月日 2023-12-03
資料番号 NLC2023-21,SP2023-41
巻番号(vol) vol.123
号番号(no) NLC-291,SP-292
ページ範囲 pp.43-48(NLC), pp.43-48(SP),
ページ数 6
発行日 2023-11-25 (NLC, SP)