［ポスター講演］大規模主観評価に基づく定量的音読スキル情報を活用したDNN音声合成の検討

阿久井 駿; 井島 勇祐; 齋藤 大輔; 峯松 信明

講演名	2021-03-03 ［ポスター講演］大規模主観評価に基づく定量的音読スキル情報を活用したDNN音声合成の検討阿久井駿(東大), 井島勇祐(NTT), 齋藤大輔(東大), 峯松信明(東大),
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	これまで我々は，プロのアナウンサーらしさを反映する定量的な尺度として，主観評価実験に基づいた「音読スキル」と呼ばれる指標を検討してきた．本稿では，こうした定量的音読スキル情報をDNN音声合成に活用し，DNNの入力情報として音読スキルの値を付加して複数話者による学習を行う方法を検討する．これにより，音声の話者性は保ったまま音読スキルを操作できることが期待される．合成した音声が自然性や話者再現性を保持したまま音読スキルの変化を示しているかどうか，および音読スキル値を入力する隠れ層を変更した場合の性能について，客観評価および聴取実験による主観評価で検討した．
抄録(英)	So far, we have been suggested the value of `oral reading skill' based on a listening evaluation experiment as a quantitative index which represents how much the reading voice is heard as a professional narrator's one. In this paper, we attempt to utilize such information of skill for DNN-based speech synthesis by adding the value of oral reading skill to the input of the multispeaker DNN speech synthesis model. This can be expected to manipulate the reading skill of synthesized voice without changing its individuality. We considered different patterns of hidden layers the value of oral reading skill is added to. For each case, we discussed by objective evaluation and subjective evaluation based on listening experiment whether the reading skill of the synthesized voice changes as expected with its naturalness and individuality preserved.
キーワード(和)	音声合成 / 深層ニューラルネットワーク / 音読スキル
キーワード(英)	speech synthesis / deep neural network / oral reading skill
資料番号	EA2020-71,SIP2020-102,SP2020-36
発行日	2021-02-24 (EA, SIP, SP)

研究会情報
研究会	EA / US / SP / SIP / IPSJ-SLP
開催期間	2021/3/3(から2日開催)
開催地（和）	オンライン開催
開催地（英）	Online
テーマ（和）	音声,応用／電気音響,信号処理，超音波，一般
テーマ（英）	Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics
委員長氏名（和）	古家賢一(大分大) / 三浦光(日大) / 河井恒(NICT) / 林和則(京大) / 北岡教英(豊橋技科大)
委員長氏名（英）	Kenichi Furuya(Oita Univ.) / Hikaru Miura(Nihon Univ.) / Hisashi Kawai(NICT) / Kazunori Hayashi(Kyoto Univ.) / 北岡教英(豊橋技科大)
副委員長氏名（和）	梶川嘉延(関西大) / 松井健太郎(NHK) / 近藤淳(静岡大) / 小池義和(芝浦工大) / / 坂東幸浩(NTT) / 田中聡久(東京農工大)
副委員長氏名（英）	Yoshinobu Kajikawa(Kansai Univ.) / Kentaro Matsui(NHK) / Jun Kondo(Shizuoka Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.) / / Yukihiro Bandou(NTT) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
幹事氏名（和）	小山翔一(東大) / 加古達也(NTT) / 小山大介(同志社大) / 荒川元孝(東北大) / 高道慎之介(東大) / 小川哲司(早大) / 小西克巳(法政大) / 杉本憲治郎(早大) / 秋田祐哉(京大) / 太刀岡勇気(デンソーアイティーラボラトリ) / 高島遼一(神戸大) / 高道慎之介(東大)
幹事氏名（英）	Shoichi Koyama(Univ. of Tokyo) / Tatsuya Kako(NTT) / Daisuke Koyama(Doshisha Univ.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / Katsumi Konishi(Hosei Univ.) / Kenjiro Sugimoto(Waseda Univ.) / 秋田祐哉(京大) / 太刀岡勇気(デンソーアイティーラボラトリ) / 高島遼一(神戸大) / 高道慎之介(東大)
幹事補佐氏名（和）	若林佑幸(都立大) / 小松達也(LINE) / 平田慎之介(東工大) / 井島勇祐(NTT) / 田中雄一(東京農工大)
幹事補佐氏名（英）	Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shinnosuke Hirata(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.)

講演論文情報詳細
申込み研究会	Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics / Technical Committee on Speech / Technical Committee on Signal Processing / Special Interest Group on Spoken Language Processing
本文の言語	JPN
タイトル（和）	［ポスター講演］大規模主観評価に基づく定量的音読スキル情報を活用したDNN音声合成の検討
サブタイトル（和）
タイトル（英）	[Poster Presentation] Investigation of DNN-based speech synthesis utilizing oral reading skills obtained from large scale subjective evaluation
サブタイトル（和）
キーワード(1)（和/英）	音声合成 / speech synthesis
キーワード(2)（和/英）	深層ニューラルネットワーク / deep neural network
キーワード(3)（和/英）	音読スキル / oral reading skill
第 1 著者氏名（和/英）	阿久井駿 / Shun Akui
第 1 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 2 著者氏名（和/英）	井島勇祐 / Yusuke Ijima
第 2 著者所属（和/英）	日本電信電話株式会社(略称：NTT) Nippon Telegraph and Telephone Corporation(略称：NTT)
第 3 著者氏名（和/英）	齋藤大輔 / Daisuke Saito
第 3 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
第 4 著者氏名（和/英）	峯松信明 / Nobuaki Minematsu
第 4 著者所属（和/英）	東京大学(略称：東大) The University of Tokyo(略称：UTokyo)
発表年月日	2021-03-03
資料番号	EA2020-71,SIP2020-102,SP2020-36
巻番号（vol）	vol.120
号番号（no）	EA-397,SIP-398,SP-399
ページ範囲	pp.68-73(EA), pp.68-73(SIP), pp.68-73(SP),
ページ数	6
発行日	2021-02-24 (EA, SIP, SP)