講演名 2016-12-20
[ポスター講演]DNN音声合成における差分特徴量のモデル化を利用したF0制御
山田 修平(東北大), 能勢 隆(東北大), 伊藤 彰則(東北大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 我々は,ユーザが自然かつ直観的に合成音声を変更できる枠組みの``テーラーメイド音声合成''の実現に向けた研究を行っている.これまでに,F0コンテキストを使用したDNNに基づく音声合成におけるF0制御手法を提案した.F0コンテキストは学習データのそれぞれのモーラやアクセント句などのセグメントの相対的なF0を表す.この手法ではコンテキストを用いてF0を相対的に変更できるものの,F0を制御せず通常のtext-to-speechとして使用する際に対数F0の再現性が低下してしまう問題点があった.本稿ではこの問題を解決するため,F0コンテキストを含むコンテキストと差分特徴量の関係をDNNでモデル化する.差分特徴量は通常のDNN音声合成による音声特徴量と自然発話音声の音声特徴量の差分を表す.本稿では,実験によって,F0コンテキストを適切に指定した場合に従来法に比べ対数F0の再現性が向上したことを示す.また提案法を利用することで,通常のDNN音声合成を上回る自然性をもつ合成音声を生成でき,かつセグメント単位での柔軟で直観的なF0制御ができることを示す.
抄録(英) We have been developing ``tailor-made speech synthesis,'' a framework which enables users to modify synthetic speech naturally and intuitively. Previously, we proposed an F0 control technique by the F0 context in DNN-based speech synthesis. F0 context represents relative log F0 of training data at the segment (e.g. mora or accent phrase) level. The technique allows users to control relatively the log F0 of synthetic speech by the context. However, when users synthesize speech without F0 control, there is a problem that the naturalness of the synthetic speech degrades compared to that with a standard DNN-based synthesis. In this paper, we use another DNN that models the relationship between context including F0 context and differential features. Differential features represent the difference between acoustic features of the natural speech and the synthetic speech. The experiments showed that when we created F0 context appropriately in proposed method, reproductivity of log F0 improved compared to the conventional method. In this paper, we show that proposed technique enables to synthesize speech more naturally than standard DNN-based speech synthesis and to control F0 flexibly and naturally at the segment level.
キーワード(和) DNN音声合成 / モデル学習 / F0制御 / F0コンテキスト / 差分特徴量
キーワード(英) DNN-based speech synthesis / Model training / F0 control / F0 context / Differential feature
資料番号 SP2016-55
発行日 2016-12-13 (SP)

研究会情報
研究会 SP / IPSJ-SLP / NLC / IPSJ-NL
開催期間 2016/12/20(から3日開催)
開催地(和) NTT武蔵野研究開発センタ
開催地(英) NTT Musashino R&D
テーマ(和) 第18回音声言語シンポジウム & 第3回自然言語処理シンポジウム
テーマ(英) The 18th Spoken Language Symposium & The Third Natural Language Processing Symposium
委員長氏名(和) 間野 一則(芝浦工大) / 峯松 信明(東大) / 金山 博(日本IBM) / 乾 健太郎(東北大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.) / Nobuaki Minematsu(Univ. Tokyo) / Hiroshi Kanayama(IBM) / Kentaro Inui(Tohoku Univ.)
副委員長氏名(和) 森 大毅(宇都宮大) / / 市瀬 眞(NTTドコモ) / 榊 剛史(東大/ホットリンク)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.) / / Makoto Ichise(NTT DoCoMo) / Takeshi Sakaki(Univ. of Tokyo/Hottolink)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大) / 南條 浩輝(京大) / 篠原 雄介(東芝) / 篠崎 隆宏(東工大) / 渡辺 靖彦(龍谷大) / 嶋田 和孝(九工大) / 荒瀬 由紀(大阪大) / 岡崎 直観(東北大) / 木村 俊也(ミクシィ) / 小町 守(首都大学東京) / 西川 仁(東工大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.) / Hiroaki Nanjo(Kyoyo Univ.) / Yusuke Shinohara(Toshiba) / Takahiro Shinozaki(Tokyo Institute of Technology) / Yasuhiko Watanabe(Ryukoku Univ.) / Kazutaka Shimada(Kyushu Inst. of Tech.) / Yuki Arase(Osaka Univ.) / Naoaki Okazaki(Tohoku Univ.) / Toshiya Kimura(Mixi Co. Ltd.) / Mamoru Komachi(Tokyo Met. Univ.) / Hitoshi Nishikawa(Tokyo Inst. of Tech.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大) / / 東中 竜一郎(NTT) / 吉田 光男(豊橋技科大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.) / / Ryuichiro Higashinaka(NTT) / Mitsuo Yoshida(Toyohashi Univ. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Special Interest Group on Spoken Language Processing / Technical Committee on Natural Language Understanding and Models of Communication / Special Interest Group on Natural Language
本文の言語 JPN
タイトル(和) [ポスター講演]DNN音声合成における差分特徴量のモデル化を利用したF0制御
サブタイトル(和)
タイトル(英) [Poster Presentation] F0 control by modeling differential features in DNN-based speech synthesis
サブタイトル(和)
キーワード(1)(和/英) DNN音声合成 / DNN-based speech synthesis
キーワード(2)(和/英) モデル学習 / Model training
キーワード(3)(和/英) F0制御 / F0 control
キーワード(4)(和/英) F0コンテキスト / F0 context
キーワード(5)(和/英) 差分特徴量 / Differential feature
第 1 著者 氏名(和/英) 山田 修平 / Shuhei Yamada
第 1 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 2 著者 氏名(和/英) 能勢 隆 / Takashi Nose
第 2 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
第 3 著者 氏名(和/英) 伊藤 彰則 / Akinori Ito
第 3 著者 所属(和/英) 東北大学(略称:東北大)
Tohoku University(略称:Tohoku Univ.)
発表年月日 2016-12-20
資料番号 SP2016-55
巻番号(vol) vol.116
号番号(no) SP-378
ページ範囲 pp.37-42(SP),
ページ数 6
発行日 2016-12-13 (SP)