講演名 2017-03-02
無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換
小山田 圭佑(筑波大), 亀岡 弘和(NTT), 金子 卓弘(NTT), 安東 弘泰(筑波大), 平松 薫(NTT), 柏野 邦夫(NTT),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,非母語話者音声を母語話者らしい発音の音声に自動変換する問題を扱う.非母語話者の発音の癖や傾向は前後の文脈(例えば単語)に多分に依存するため,フレームごとの特徴量ではなく連続するフレームの特徴量の系列に対し変換則を学習する機構が必要である.本研究では,特徴量の局所的な系列から系列への変換をオンラインで行えるようにするため,各セグメント内の特徴量を連結したベクトル(セグメント特徴量)を入出力としたニューラルネットワーク(Neural Network; NN)を考え,さらに特徴量の大域的な連続性を保証するため,セグメントの重複区間における変換特徴量が矛盾しないような機構を備えたNNのアーキテクチャを提案する.また,このNNにより生成される変換特徴量系列に対し敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いたポストフィルタリング手法を適用し,その効果も併せて確認する.主観および客観評価実験により提案法と従来法による変換音声の比較検証を行い,提案法の有効性を確認した.
抄録(英) This paper deals with the problem of automatically modifying the pronunciation of non-native speech. Since the pronunciation characteristics of non-native speakers tend to depend heavily on the context (such as words), conversion rules must be learned from and applied to a sequence of features rather than a single-frame feature. This paper proposes constructing a neural network that allows a sequence of features as an input and an output, and guarantees the consistency between the generated features within overlapping segments. We further propose applying a recently proposed generative adversarial network (GAN)-based post filterto the generated feature sequence with the aim of synthesizing natural sounding speech. Through subjective and quantitative evaluations, we confirmed the superiority of the proposed method over a conventional NN approach in terms of the conversion quality.
キーワード(和) 非母語話者音声変換 / 声質変換 / 深層学習 / 敵対的生成ネットワーク
キーワード(英)
資料番号 EA2016-139,SIP2016-194,SP2016-134
発行日 2017-02-22 (EA, SIP, SP)

研究会情報
研究会 SP / SIP / EA
開催期間 2017/3/1(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, and Related Topics
委員長氏名(和) 間野 一則(芝浦工大) / 中静 真(千葉工大) / 水町 光徳(九工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.) / Makoto Nakashizuka(Chiba Inst. of Tech.) / Mitsunori Mizumachi(Kyushu Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大) / 奥田 正浩(北九州市大) / 村松 正吾(新潟大) / 羽田 陽一(電通大) / 島内 末廣(NTT)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / Masahiro Okuda(Univ. of Kitakyushu) / Shogo Muramatsu(Niigata Univ.) / Yoichi Haneda(Univ. of Electro-Comm.) / Suehiro Shimauchi(NTT)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大) / 平林 晃(立命館大) / 宮田 高道(千葉工大) / 堀内 俊治(KDDI研) / 渡邉 貫治(秋田県立大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Akira Hirabayashi(Ritsumeikan Univ.) / Takamichi Miyata(Chiba Inst. of Tech.) / Toshiharu Horiuchi(KDDI R&D Labs.) / Kanji Watanabe(Akita Pref. Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大) / 渡邊 修(拓殖大) / 武岡 成人(静岡理工科大) / TREVINO Jorge(東北大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / Osamu Watanabe(Takushoku Univ.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / TREVINO Jorge(Tohoku Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Signal Processing / Technical Committee on Engineering Acoustics
本文の言語 JPN
タイトル(和) 無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換
サブタイトル(和)
タイトル(英) Non-native speech conversion with consistency-aware recursive network and generative adversarial network
サブタイトル(和)
キーワード(1)(和/英) 非母語話者音声変換
キーワード(2)(和/英) 声質変換
キーワード(3)(和/英) 深層学習
キーワード(4)(和/英) 敵対的生成ネットワーク
第 1 著者 氏名(和/英) 小山田 圭佑 / Keisuke Oyamada
第 1 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ. of Tsukuba)
第 2 著者 氏名(和/英) 亀岡 弘和 / Hirokazu Kameoka
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 金子 卓弘 / Takuhiro Kaneko
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 安東 弘泰 / Hiroyasu Ando
第 4 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ. of Tsukuba)
第 5 著者 氏名(和/英) 平松 薫 / Kaoru Hiramatsu
第 5 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 6 著者 氏名(和/英) 柏野 邦夫 / Kunio Kashino
第 6 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
発表年月日 2017-03-02
資料番号 EA2016-139,SIP2016-194,SP2016-134
巻番号(vol) vol.116
号番号(no) EA-475,SIP-476,SP-477
ページ範囲 pp.315-320(EA), pp.315-320(SIP), pp.315-320(SP),
ページ数 6
発行日 2017-02-22 (EA, SIP, SP)