講演名 2017-01-21
[ポスター講演]読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討
小池 治憲(東北大), 能勢 隆(東北大), 伊藤 彰則(東北大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来の声質変換手法は元話者の音声を用いた事前学習が必要であるという問題点がある.我々はこれを解決する手法として,複数の元話者と目標話者間で多対一マッピングを行うニューラルネットワークを用いることで任意の入力話者の話者性を特定の目標話者へ近づける手法を提案した.さらにこの手法では,変換に差分スペクトルフィルタを用いることでより自然性の高い変換音声が得られる.この研究では読み上げ音声の変換を対象として評価しているが,カラオケなどへの応用を考えると歌声の変換についても検討する必要がある.提案手法を歌声変換に適用する際に,本来であればニューラルネットワークの学習に歌唱音声を用いることが妥当であると考えられるが,そのためには学習に用いる大量の歌唱者のパラレルな歌唱音声の収録が必要となり,読み上げ音声と比較して非常にコストが高い.そこで本稿では,読み上げ音声を学習に利用したニューラルネットワークに基づく歌唱者非依存歌声変換について検討する.評価実験により,学習に歌唱音声を用いた歌唱者依存の手法より自然性の高い変換歌唱音声が得られること,複数の歌唱者から単一の目標歌唱者への多対一変換が行えることを示す.
抄録(英) There is a problem that the conventional method requires the speech of the source speaker for training. We proposed a method of voice conversion by which voice of an arbitrary input speaker can be converted closer to that of the specified target speaker using a neural network for many-to-one mapping between multiple source speakers and a target speaker to solve the problem. Furthermore, we can obtain more natural converted speech by using spectral differential filter. In this study, we evaluated the performance of conversion by read speech. Considering the application to karaoke, it is necessary to consider conversion of singing voice as well. It is ideal to use singing voice for training neural network, but it is extremely expensive to use parallel singing voice of a large number of singers. Therefore, in this paper, we study the singer-independent singing voice conversion based on a neural network using read speech for trainning. Evaluation experiments show that we can obtain more natural converted speech than singer-dependent method using singing voice and can perform many-to-one conversion from multiple singers to a single target singer.
キーワード(和) 歌声声質変換 / ニューラルネットワーク / 歌唱者非依存変換 / 差分スペクトルフィルタ / 読み上げ音声
キーワード(英) singing voice conversion / neural network / singer-independent conversion / spectral differential filter / read speech
資料番号 SP2016-67
発行日 2017-01-14 (SP)

研究会情報
研究会 SP
開催期間 2017/1/21(から1日開催)
開催地(和) 東京大学
開催地(英) The University of Tokyo
テーマ(和) 合成,生成,韻律,音声一般
テーマ(英) Synthesis, Generation, Prosody, etc.
委員長氏名(和) 間野 一則(芝浦工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech
本文の言語 JPN
タイトル(和) [ポスター講演]読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討
サブタイトル(和)
タイトル(英) [Poster Presentation] A Study on Singer-Independent Singing Voice Conversion Using Read Speech Based on Neural Network
サブタイトル(和)
キーワード(1)(和/英) 歌声声質変換 / singing voice conversion
キーワード(2)(和/英) ニューラルネットワーク / neural network
キーワード(3)(和/英) 歌唱者非依存変換 / singer-independent conversion
キーワード(4)(和/英) 差分スペクトルフィルタ / spectral differential filter
キーワード(5)(和/英) 読み上げ音声 / read speech
第 1 著者 氏名(和/英) 小池 治憲 / Harunori Koike
第 1 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 2 著者 氏名(和/英) 能勢 隆 / Takashi Nose
第 2 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 3 著者 氏名(和/英) 伊藤 彰則 / Akinori Ito
第 3 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
発表年月日 2017-01-21
資料番号 SP2016-67
巻番号(vol) vol.116
号番号(no) SP-414
ページ範囲 pp.17-22(SP),
ページ数 6
発行日 2017-01-14 (SP)