講演名 2021-03-03
[ポスター講演]統合型ソースフィルタネットワークによるニューラルボコーダ
米山 怜於(名大), 呉 宜樵(名大), 戸田 智基(名大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,ソースフィルタ理論に基づくニューラルボコーダを単一のネットワークにより実現する手法を提案する.深層学習に基づく音声波形生成モデリングを実現するニューラルボコーダは,高品質な音声波形を生成できる一方で,完全データ駆動型の枠組みであるがゆえに,従来型ボコーダの利点の一つであった操作機能が低下する傾向にある.そのため,従来型ボコーダと同様に音源生成部と声道フィルタ部に分割し,どちらか一方に対してパラメトリックなモデルを導入する枠組みが盛んに研究されている.従来型ボコーダにおける近似を一部導入することで,操作性を高めることが可能となるが,完全データ駆動型の枠組みと比較すると,音質が若干劣化する傾向にあり,また,操作機能についても未だ改善の余地がある.この問題に対し,本稿では,より近似の少ない枠組みとして,単一のニューラルネットワークに対してソースフィルタ理論の仕組みを導入した「統合型ソースフィルタネットワーク」を提案する.音源生成部と声道フィルタ部の両方をニューラルネットワークでモデル化して接続することで,統一的な訓練指標でネットワーク全体を最適化することを可能とするとともに,音源生成部のネットワーク出力に対する制約を導入することで,音源生成機能を備えたネットワークの学習を試みる.実験的評価の結果から,提案法は従来法であるニューラル・ソースフィルタと比較して,$F_0$変換精度を有意に改善できることを確認した.
抄録(英) In this paper, we propose a method to develop a neural vocoder using a single network based on the source-filter theory. A neural vocoder makes it possible to generate high-quality speech waveforms by applying a deep learning framework to direct speech waveform modeling. On the other hand, its controllability tends to be lower compared to that of a traditional vocoder due to the use of a totally data-driven framework. To alleviate this issue, there have been studied other neural vocoding frameworks consisting of a source excitation part and a resonance filtering part as in a traditional vocoding framework and applying a parametric model to one of these two parts. The use of a part of the traditional approximations is effective for improving controllability of neural vocoder. However, the resulting controllability is still insufficient, and this framework also causes an adverse effect on sound quality degradation compared to the totally data-driven framework. Towards the development of a better neural vocoder, we propose "a unified source-filter network" as a novel neural vocoding framework using a single network. The proposed network consists of cascaded two networks corresponding to the source excitation part and the resonance filtering part, making it possible to optimize all network parameters using a unified training criterion. Moreover, we try to optimize the source excitation network to generate reasonable source excitation signals by applying an additional constraint to its output. Our experimental results have demonstrated that the proposed method can improve $F_0$ controllability compared to the neural source-filter as one of the conventional neural vocoding methods.
キーワード(和) 音声合成 / ソースフィルタモデル / ニューラルボコーダ
キーワード(英) speech synthesis / source-filter model / neural vocoder
資料番号 EA2020-69,SIP2020-100,SP2020-34
発行日 2021-02-24 (EA, SIP, SP)

研究会情報
研究会 EA / US / SP / SIP / IPSJ-SLP
開催期間 2021/3/3(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 音声,応用/電気音響,信号処理,超音波,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics
委員長氏名(和) 古家 賢一(大分大) / 三浦 光(日大) / 河井 恒(NICT) / 林 和則(京大) / 北岡 教英(豊橋技科大)
委員長氏名(英) Kenichi Furuya(Oita Univ.) / Hikaru Miura(Nihon Univ.) / Hisashi Kawai(NICT) / Kazunori Hayashi(Kyoto Univ.) / 北岡 教英(豊橋技科大)
副委員長氏名(和) 梶川 嘉延(関西大) / 松井 健太郎(NHK) / 近藤 淳(静岡大) / 小池 義和(芝浦工大) / / 坂東 幸浩(NTT) / 田中 聡久(東京農工大)
副委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.) / Kentaro Matsui(NHK) / Jun Kondo(Shizuoka Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.) / / Yukihiro Bandou(NTT) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
幹事氏名(和) 小山 翔一(東大) / 加古 達也(NTT) / 小山 大介(同志社大) / 荒川 元孝(東北大) / 高道 慎之介(東大) / 小川 哲司(早大) / 小西 克巳(法政大) / 杉本 憲治郎(早大) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事氏名(英) Shoichi Koyama(Univ. of Tokyo) / Tatsuya Kako(NTT) / Daisuke Koyama(Doshisha Univ.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / Katsumi Konishi(Hosei Univ.) / Kenjiro Sugimoto(Waseda Univ.) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE) / 平田 慎之介(東工大) / 井島 勇祐(NTT) / 田中 雄一(東京農工大)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shinnosuke Hirata(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics / Technical Committee on Speech / Technical Committee on Signal Processing / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) [ポスター講演]統合型ソースフィルタネットワークによるニューラルボコーダ
サブタイトル(和)
タイトル(英) [Poster Presentation] A unified source-filter network for neural vocoder
サブタイトル(和)
キーワード(1)(和/英) 音声合成 / speech synthesis
キーワード(2)(和/英) ソースフィルタモデル / source-filter model
キーワード(3)(和/英) ニューラルボコーダ / neural vocoder
第 1 著者 氏名(和/英) 米山 怜於 / Reo Yoneyama
第 1 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
第 2 著者 氏名(和/英) 呉 宜樵 / Yi-Chiao Wu
第 2 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
第 3 著者 氏名(和/英) 戸田 智基 / Tomoki Toda
第 3 著者 所属(和/英) 名古屋大学(略称:名大)
Nagoya University(略称:Nagoya Univ.)
発表年月日 2021-03-03
資料番号 EA2020-69,SIP2020-100,SP2020-34
巻番号(vol) vol.120
号番号(no) EA-397,SIP-398,SP-399
ページ範囲 pp.57-62(EA), pp.57-62(SIP), pp.57-62(SP),
ページ数 6
発行日 2021-02-24 (EA, SIP, SP)