講演名 2018-07-02
CycleGANによる音声の感情変換
安田 研二(電通大), 折原 良平(電通大), 清 雄一(電通大), 田原 康之(電通大), 大須賀 昭彦(電通大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ドメイン変換タスクは深層学習の発展によって,より自然で高精度な出力を生成することを可能としている.特にGAN(Generative Adversarial Network)の登場によって,汎用的な変換学習が行えるようになった.音声を対象としたドメイン変換の一例として声質変換がある.声質変換は話者ドメイン変換と言い換えることができ,数多く研究されている.しかし,話者以外の情報を変換する研究は少ない.より自然な音声合成を目的とする場合,話者情報以外の変換について研究する必要がある.そこで本研究では,CycleGANを用いて音声を対象とした感情ドメイン変換を行った.「ANG(怒り)」「JOY(喜び)」「SAD(悲しみ)」を対象に変換を行なった.評価実験の結果,「ANG(怒り)」への変換ついて高い性能を発揮することができた.また,「JOY(喜び)」からの変換についても高い性能を発揮することができた.
抄録(英) In domain transfer task deep learning makes it possible to generate more natural and highly accurate output. Especially with the advent of GAN(Generative Adversarial Network), Learning of transfers between unspecified domains has become possible. Voice conversion is an example of domain transformation for speech. Voice conversion can be paraphrased as speaker domain transformation, which many studies has been done. However, few studies have focused on transformations other than speakers. When aiming at more natural speech synthesis, it is necessary to study transformations other than speaker. Therefore, In this research, we use a model called CycleGAN to perform voice conversion on emotions. We selected "ANG(anger)", "JOY(joy)", "SAD(sadness)" as a conversion target. As a result of evaluation experiments, the model performs well on conversion to "ANG(anger)". In addition, the model performs well on conversion from "JOY(joy)".
キーワード(和) 深層学習 / ドメイン変換 / 敵対的生成ネットワーク / 声質変換 / 音声処理
キーワード(英) Deep Learning / Domain Transfer / Generative Adversarial Network / Voice Conversion / Speech Processing
資料番号 AI2018-11
発行日 2018-06-25 (AI)

研究会情報
研究会 AI
開催期間 2018/7/2(から1日開催)
開催地(和) 札幌市教育文化会館
開催地(英)
テーマ(和) 「ソフトウェア開発と機械学習」および一般
テーマ(英)
委員長氏名(和) 峯 恒憲(九大)
委員長氏名(英) Tsunenori Mine(Kyushu Univ.)
副委員長氏名(和) 片上 大輔(東京工芸大) / 福田 直樹(静岡大)
副委員長氏名(英) Daisuke Katagami(Tokyo Polytechnic Univ.) / Naoki Fukuta(Shizuoka Univ.)
幹事氏名(和) 服部 宏充(立命館大) / 清 雄一(電通大)
幹事氏名(英) Hiromitsu Hattori(Ritsumeikan Univ.) / Yuichi Sei(Univ. of Electro-Comm.)
幹事補佐氏名(和) 櫻井 祐子(産総研)
幹事補佐氏名(英) Yuko Sakurai(AIST)

講演論文情報詳細
申込み研究会 Technical Committee on Artificial Intelligence and Knowledge-Based Processing
本文の言語 JPN
タイトル(和) CycleGANによる音声の感情変換
サブタイトル(和)
タイトル(英) Transforming the Emotion in Speech using CycleGAN
サブタイトル(和)
キーワード(1)(和/英) 深層学習 / Deep Learning
キーワード(2)(和/英) ドメイン変換 / Domain Transfer
キーワード(3)(和/英) 敵対的生成ネットワーク / Generative Adversarial Network
キーワード(4)(和/英) 声質変換 / Voice Conversion
キーワード(5)(和/英) 音声処理 / Speech Processing
第 1 著者 氏名(和/英) 安田 研二 / Kenji Yasuda
第 1 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 2 著者 氏名(和/英) 折原 良平 / Ryohei Orihara
第 2 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 3 著者 氏名(和/英) 清 雄一 / Yuichi Sei
第 3 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 4 著者 氏名(和/英) 田原 康之 / Yasuyuki Tahara
第 4 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
第 5 著者 氏名(和/英) 大須賀 昭彦 / Akihiko Ohsuga
第 5 著者 所属(和/英) 電気通信大学(略称:電通大)
The University of Electro-Communications(略称:UEC)
発表年月日 2018-07-02
資料番号 AI2018-11
巻番号(vol) vol.118
号番号(no) AI-116
ページ範囲 pp.61-66(AI),
ページ数 6
発行日 2018-06-25 (AI)