講演抄録/キーワード |
講演名 |
2017-03-02 12:45
無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換 ○小山田圭佑(筑波大)・亀岡弘和・金子卓弘(NTT)・安東弘泰(筑波大)・平松 薫・柏野邦夫(NTT) EA2016-139 SIP2016-194 SP2016-134 |
抄録 |
(和) |
本稿では,非母語話者音声を母語話者らしい発音の音声に自動変換する問題を扱う.
非母語話者の発音の癖や傾向は前後の文脈(例えば単語)に多分に依存するため,
フレームごとの特徴量ではなく
連続するフレームの特徴量の系列に対し変換則を学習する機構が必要である.
本研究では,
特徴量の局所的な系列から系列への変換をオンラインで行えるようにするため,
各セグメント内の特徴量を連結したベクトル(セグメント特徴量)を入
出力としたニューラルネットワーク(Neural Network; NN)を考え,さらに特徴量の
大域的な連続性を保証するため,
セグメントの重複区間における変換特徴量が矛盾しないような機構を備えたNNのアーキテクチャを提案する.
また,このNNにより生成される変換特徴量系列に対し敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いたポストフィルタリング手法を適用し,その効果も併せて確認する.
主観および客観評価実験により
提案法と従来法による変換音声の比較検証を行い,提案法の有効性を確認した. |
(英) |
This paper deals with the problem of automatically modifying the pronunciation of non-native speech.
Since the pronunciation characteristics of non-native speakers tend to depend heavily on the context (such as words), conversion rules must be learned from and applied to
a sequence of features rather than a single-frame feature.
This paper proposes constructing a neural network that allows
a sequence of features as an input and an output, and guarantees
the consistency between the generated features within overlapping segments.
We further propose applying a recently proposed generative adversarial network (GAN)-based post filter
to the generated feature sequence with the aim of synthesizing natural sounding speech.
Through subjective and quantitative evaluations, we confirmed the superiority of the proposed method over a conventional NN approach in terms of the conversion quality. |
キーワード |
(和) |
非母語話者音声変換 / 声質変換 / 深層学習 / 敵対的生成ネットワーク / / / / |
(英) |
/ / / / / / / |
文献情報 |
信学技報, vol. 116, no. 477, SP2016-134, pp. 315-320, 2017年3月. |
資料番号 |
SP2016-134 |
発行日 |
2017-02-22 (EA, SIP, SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2016-139 SIP2016-194 SP2016-134 |
|