講演名 2020-03-02
DNNに基づく話し言葉音声合成における追加コンテキストの効果
山下 優樹(東大), 郡山 知樹(東大), 齋藤 佑樹(東大), 高道 慎之介(東大), 井島 勇祐(NTT), 増村 亮(NTT), 猿渡 洋(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ディープニューラルネットワーク(DNN)に基づく音声合成では, パラ言語, 非言語情報を追加することで, 読み上げ音声よりも自発性の高い音声を再現できる. 本稿では,日本語話し言葉コーパス(CSJ)に付与されている豊富なアノテーションを利用して, DNNに基づく話し言葉音声合成におけるパラ言語的, 非言語的特徴量の効果を評価する. 実験では, パラ言語的情報を付加することで, より高い再現性で話し言葉音声を合成できることを示す.
抄録(英) In DNN-based speech synthesis, contexts, which are input features of DNN, can be used not only for the representation of linguistic information but also for that of para- and non- linguistic information. Although spontaneous speech synthesis requires the use of various contexts to express the diversity of prosody in spontaneous speech, it is not clear what features are important. In this study, we utilize the rich tags annotated in Corpus of Spontaneous Japanese (CSJ), and use them as the extended contexts. Experimental evaluation results show that both frequently- and infrequently- observed tags are effective for synthesizing spontaneous speech.
キーワード(和) 音声合成 / コンテキスト / 話し言葉音声 / アノテーション / ディープニューラルネットワーク
キーワード(英) speech synthesis / context / spontaneous speech / annotation / deep neural network
資料番号 EA2019-112,SIP2019-114,SP2019-61
発行日 2020-02-24 (EA, SIP, SP)

研究会情報
研究会 SP / EA / SIP
開催期間 2020/3/2(から2日開催)
開催地(和) 沖縄産業支援センター
開催地(英) Okinawa Industry Support Center
テーマ(和) 音声,応用/電気音響,信号処理,一般
テーマ(英)
委員長氏名(和) 河井 恒(NICT) / 古家 賢一(大分大) / 相川 直幸(東京理科大)
委員長氏名(英) Hisashi Kawai(NICT) / Kenichi Furuya(Oita Univ.) / Naoyuki Aikawa(TUS)
副委員長氏名(和) 李 晃伸(名工大) / 島内 末廣(金沢工大) / 武岡 成人(静岡理工科大) / 林 和則(阪市大) / 坂東 幸浩(NTT)
副委員長氏名(英) Akinobu Ri(Nagoya Inst. of Tech.) / Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / Kazunori Hayashi(Osaka City Univ) / Yukihiro Bandou(NTT)
幹事氏名(和) 南條 浩輝(京大) / 小川 哲司(早大) / 松井 健太郎(NHK) / 小山 翔一(東大) / 中本 昌由(広島大) / 小西 克巳(法政大)
幹事氏名(英) Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.) / Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo) / Masayoshi Nakamoto(Hiroshima Univ.) / Katsumi Konishi(Hosei Univ.)
幹事補佐氏名(和) 郡山 知樹(東大) / 井島 勇祐(NTT) / 井本 桂右(立命館大) / 森川 大輔(富山県立大) / 杉本 憲治郎(早大)
幹事補佐氏名(英) Tomoki Koriyama(Univ. of Tokyo) / Yusuke Ijima(NTT) / Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.) / Kenjiro Sugimoto(Waseda Univ.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語 JPN
タイトル(和) DNNに基づく話し言葉音声合成における追加コンテキストの効果
サブタイトル(和)
タイトル(英) The Effectiveness of Additional Context in DNN-based Spontaneous Speech Synthesis
サブタイトル(和)
キーワード(1)(和/英) 音声合成 / speech synthesis
キーワード(2)(和/英) コンテキスト / context
キーワード(3)(和/英) 話し言葉音声 / spontaneous speech
キーワード(4)(和/英) アノテーション / annotation
キーワード(5)(和/英) ディープニューラルネットワーク / deep neural network
第 1 著者 氏名(和/英) 山下 優樹 / Yuki Yamashita
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 郡山 知樹 / Tomoki Koriyama
第 2 著者 所属(和/英) 東大院・情報理工(略称:東大)
The University of Tokyo(略称:UTokyo)
第 3 著者 氏名(和/英) 齋藤 佑樹 / Yuki Saito
第 3 著者 所属(和/英) 東大院・情報理工(略称:東大)
The University of Tokyo(略称:UTokyo)
第 4 著者 氏名(和/英) 高道 慎之介 / Shinnosuke Takamichi
第 4 著者 所属(和/英) 東大院・情報理工(略称:東大)
The University of Tokyo(略称:UTokyo)
第 5 著者 氏名(和/英) 井島 勇祐 / Yusuke Ijima
第 5 著者 所属(和/英) NTT メディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 6 著者 氏名(和/英) 増村 亮 / Ryo Masumura
第 6 著者 所属(和/英) NTT メディアインテリジェンス研究所(略称:NTT)
NTT Media Intelligence Laboratories(略称:NTT)
第 7 著者 氏名(和/英) 猿渡 洋 / Hiroshi Saruwatari
第 7 著者 所属(和/英) 東大院・情報理工(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2020-03-02
資料番号 EA2019-112,SIP2019-114,SP2019-61
巻番号(vol) vol.119
号番号(no) EA-439,SIP-440,SP-441
ページ範囲 pp.65-70(EA), pp.65-70(SIP), pp.65-70(SP),
ページ数 6
発行日 2020-02-24 (EA, SIP, SP)