DNNに基づく話し言葉音声合成における追加コンテキストの効果

山下 優樹; 郡山 知樹; 齋藤 佑樹; 高道 慎之介; 井島 勇祐; 増村 亮; 猿渡 洋

講演名	2020-03-02 DNNに基づく話し言葉音声合成における追加コンテキストの効果山下優樹(東大), 郡山知樹(東大), 齋藤佑樹(東大), 高道慎之介(東大), 井島勇祐(NTT), 増村亮(NTT), 猿渡洋(東大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	ディープニューラルネットワーク(DNN)に基づく音声合成では, パラ言語, 非言語情報を追加することで, 読み上げ音声よりも自発性の高い音声を再現できる. 本稿では,日本語話し言葉コーパス(CSJ)に付与されている豊富なアノテーションを利用して, DNNに基づく話し言葉音声合成におけるパラ言語的, 非言語的特徴量の効果を評価する. 実験では, パラ言語的情報を付加することで, より高い再現性で話し言葉音声を合成できることを示す.
抄録(英)	In DNN-based speech synthesis, contexts, which are input features of DNN, can be used not only for the representation of linguistic information but also for that of para- and non- linguistic information. Although spontaneous speech synthesis requires the use of various contexts to express the diversity of prosody in spontaneous speech, it is not clear what features are important. In this study, we utilize the rich tags annotated in Corpus of Spontaneous Japanese (CSJ), and use them as the extended contexts. Experimental evaluation results show that both frequently- and infrequently- observed tags are effective for synthesizing spontaneous speech.
キーワード(和)	音声合成 / コンテキスト / 話し言葉音声 / アノテーション / ディープニューラルネットワーク
キーワード(英)	speech synthesis / context / spontaneous speech / annotation / deep neural network
資料番号	EA2019-112,SIP2019-114,SP2019-61
発行日	2020-02-24 (EA, SIP, SP)

研究会情報
研究会	SP / EA / SIP
開催期間	2020/3/2(から2日開催)
開催地（和）	沖縄産業支援センター
開催地（英）	Okinawa Industry Support Center
テーマ（和）	音声，応用／電気音響，信号処理，一般
テーマ（英）
委員長氏名（和）	河井恒(NICT) / 古家賢一(大分大) / 相川直幸(東京理科大)
委員長氏名（英）	Hisashi Kawai(NICT) / Kenichi Furuya(Oita Univ.) / Naoyuki Aikawa(TUS)
副委員長氏名（和）	李晃伸(名工大) / 島内末廣(金沢工大) / 武岡成人(静岡理工科大) / 林和則(阪市大) / 坂東幸浩(NTT)
副委員長氏名（英）	Akinobu Ri(Nagoya Inst. of Tech.) / Suehiro Shimauchi(Kanazawa Inst. of Tech.) / Shigeto Takeoka(Shizuoka Inst. of Science and Tech.) / Kazunori Hayashi(Osaka City Univ) / Yukihiro Bandou(NTT)
幹事氏名（和）	南條浩輝(京大) / 小川哲司(早大) / 松井健太郎(NHK) / 小山翔一(東大) / 中本昌由(広島大) / 小西克巳(法政大)
幹事氏名（英）	Hiroaki Nanjo(Kyoto Univ.) / Tetsuji Ogawa(Waseda Univ.) / Kentaro Matsui(NHK) / Shoichi Koyama(Univ. of Tokyo) / Masayoshi Nakamoto(Hiroshima Univ.) / Katsumi Konishi(Hosei Univ.)
幹事補佐氏名（和）	郡山知樹(東大) / 井島勇祐(NTT) / 井本桂右(立命館大) / 森川大輔(富山県立大) / 杉本憲治郎(早大)
幹事補佐氏名（英）	Tomoki Koriyama(Univ. of Tokyo) / Yusuke Ijima(NTT) / Keisuke Imoto(Ritsumeikan Univ.) / Daisuke Morikawa(Toyama Pref Univ.) / Kenjiro Sugimoto(Waseda Univ.)

講演論文情報詳細
申込み研究会	Technical Committee on Speech / Technical Committee on Engineering Acoustics / Technical Committee on Signal Processing
本文の言語	JPN
タイトル（和）	DNNに基づく話し言葉音声合成における追加コンテキストの効果
サブタイトル（和）
タイトル（英）	The Effectiveness of Additional Context in DNN-based Spontaneous Speech Synthesis
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	コンテキスト / context
キーワード(3)（和/英）	話し言葉音声 / spontaneous speech
キーワード(4)（和/英）	アノテーション / annotation
キーワード(5)（和/英）	ディープニューラルネットワーク / deep neural network
第 1 著者氏名（和/英）	山下優樹 / Yuki Yamashita
第 1 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 2 著者氏名（和/英）	郡山知樹 / Tomoki Koriyama
第 2 著者所属（和/英）	東大院・情報理工(略称：東大) The University of Tokyo(略称：UTokyo)
第 3 著者氏名（和/英）	齋藤佑樹 / Yuki Saito
第 3 著者所属（和/英）	東大院・情報理工(略称：東大) The University of Tokyo(略称：UTokyo)
第 4 著者氏名（和/英）	高道慎之介 / Shinnosuke Takamichi
第 4 著者所属（和/英）	東大院・情報理工(略称：東大) The University of Tokyo(略称：UTokyo)
第 5 著者氏名（和/英）	井島勇祐 / Yusuke Ijima
第 5 著者所属（和/英）	NTT メディアインテリジェンス研究所(略称：NTT) NTT Media Intelligence Laboratories(略称：NTT)
第 6 著者氏名（和/英）	増村亮 / Ryo Masumura
第 6 著者所属（和/英）	NTT メディアインテリジェンス研究所(略称：NTT) NTT Media Intelligence Laboratories(略称：NTT)
第 7 著者氏名（和/英）	猿渡洋 / Hiroshi Saruwatari
第 7 著者所属（和/英）	東大院・情報理工(略称：東大) The University of Tokyo(略称：UTokyo)
発表年月日	2020-03-02
資料番号	EA2019-112,SIP2019-114,SP2019-61
巻番号（vol）	vol.119
号番号（no）	EA-439,SIP-440,SP-441
ページ範囲	pp.65-70(EA), pp.65-70(SIP), pp.65-70(SP),
ページ数	6
発行日	2020-02-24 (EA, SIP, SP)