講演名 2021-03-03
[ポスター講演]大規模主観評価に基づく定量的音読スキル情報を活用したDNN音声合成の検討
阿久井 駿(東大), 井島 勇祐(NTT), 齋藤 大輔(東大), 峯松 信明(東大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) これまで我々は,プロのアナウンサーらしさを反映する定量的な尺度として,主観評価実験に基づいた「音読スキル」と呼ばれる指標を検討してきた.本稿では,こうした定量的音読スキル情報をDNN音声合成に活用し,DNNの入力情報として音読スキルの値を付加して複数話者による学習を行う方法を検討する.これにより,音声の話者性は保ったまま音読スキルを操作できることが期待される.合成した音声が自然性や話者再現性を保持したまま音読スキルの変化を示しているかどうか,および音読スキル値を入力する隠れ層を変更した場合の性能について,客観評価および聴取実験による主観評価で検討した.
抄録(英) So far, we have been suggested the value of `oral reading skill' based on a listening evaluation experiment as a quantitative index which represents how much the reading voice is heard as a professional narrator's one. In this paper, we attempt to utilize such information of skill for DNN-based speech synthesis by adding the value of oral reading skill to the input of the multispeaker DNN speech synthesis model. This can be expected to manipulate the reading skill of synthesized voice without changing its individuality. We considered different patterns of hidden layers the value of oral reading skill is added to. For each case, we discussed by objective evaluation and subjective evaluation based on listening experiment whether the reading skill of the synthesized voice changes as expected with its naturalness and individuality preserved.
キーワード(和) 音声合成 / 深層ニューラルネットワーク / 音読スキル
キーワード(英) speech synthesis / deep neural network / oral reading skill
資料番号 EA2020-71,SIP2020-102,SP2020-36
発行日 2021-02-24 (EA, SIP, SP)

研究会情報
研究会 EA / US / SP / SIP / IPSJ-SLP
開催期間 2021/3/3(から2日開催)
開催地(和) オンライン開催
開催地(英) Online
テーマ(和) 音声,応用/電気音響,信号処理,超音波,一般
テーマ(英) Speech, Engineering/Electro Acoustics, Signal Processing, Ultrasonics, and Related Topics
委員長氏名(和) 古家 賢一(大分大) / 三浦 光(日大) / 河井 恒(NICT) / 林 和則(京大) / 北岡 教英(豊橋技科大)
委員長氏名(英) Kenichi Furuya(Oita Univ.) / Hikaru Miura(Nihon Univ.) / Hisashi Kawai(NICT) / Kazunori Hayashi(Kyoto Univ.) / 北岡 教英(豊橋技科大)
副委員長氏名(和) 梶川 嘉延(関西大) / 松井 健太郎(NHK) / 近藤 淳(静岡大) / 小池 義和(芝浦工大) / / 坂東 幸浩(NTT) / 田中 聡久(東京農工大)
副委員長氏名(英) Yoshinobu Kajikawa(Kansai Univ.) / Kentaro Matsui(NHK) / Jun Kondo(Shizuoka Univ.) / Yoshikazu Koike(Shibaura Inst. of Tech.) / / Yukihiro Bandou(NTT) / Toshihisa Tanaka(Tokyo Univ. Agri.&Tech.)
幹事氏名(和) 小山 翔一(東大) / 加古 達也(NTT) / 小山 大介(同志社大) / 荒川 元孝(東北大) / 高道 慎之介(東大) / 小川 哲司(早大) / 小西 克巳(法政大) / 杉本 憲治郎(早大) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事氏名(英) Shoichi Koyama(Univ. of Tokyo) / Tatsuya Kako(NTT) / Daisuke Koyama(Doshisha Univ.) / Mototaka Arakawa(Tohoku Univ.) / Shinnosuke Takamichi(Univ. of Tokyo) / Tetsuji Ogawa(Waseda Univ.) / Katsumi Konishi(Hosei Univ.) / Kenjiro Sugimoto(Waseda Univ.) / 秋田 祐哉(京大) / 太刀岡 勇気(デンソーアイティーラボラトリ) / 高島 遼一(神戸大) / 高道 慎之介(東大)
幹事補佐氏名(和) 若林 佑幸(都立大) / 小松 達也(LINE) / 平田 慎之介(東工大) / 井島 勇祐(NTT) / 田中 雄一(東京農工大)
幹事補佐氏名(英) Yukou Wakabayashi(Tokyo Metropolitan Univ.) / Tatsuya Komatsu(LINE) / Shinnosuke Hirata(Tokyo Inst. of Tech.) / Yusuke Ijima(NTT) / Yuichi Tanaka(Tokyo Univ. Agri.&Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Engineering Acoustics / Technical Committee on Ultrasonics / Technical Committee on Speech / Technical Committee on Signal Processing / Special Interest Group on Spoken Language Processing
本文の言語 JPN
タイトル(和) [ポスター講演]大規模主観評価に基づく定量的音読スキル情報を活用したDNN音声合成の検討
サブタイトル(和)
タイトル(英) [Poster Presentation] Investigation of DNN-based speech synthesis utilizing oral reading skills obtained from large scale subjective evaluation
サブタイトル(和)
キーワード(1)(和/英) 音声合成 / speech synthesis
キーワード(2)(和/英) 深層ニューラルネットワーク / deep neural network
キーワード(3)(和/英) 音読スキル / oral reading skill
第 1 著者 氏名(和/英) 阿久井 駿 / Shun Akui
第 1 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 2 著者 氏名(和/英) 井島 勇祐 / Yusuke Ijima
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 齋藤 大輔 / Daisuke Saito
第 3 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
第 4 著者 氏名(和/英) 峯松 信明 / Nobuaki Minematsu
第 4 著者 所属(和/英) 東京大学(略称:東大)
The University of Tokyo(略称:UTokyo)
発表年月日 2021-03-03
資料番号 EA2020-71,SIP2020-102,SP2020-36
巻番号(vol) vol.120
号番号(no) EA-397,SIP-398,SP-399
ページ範囲 pp.68-73(EA), pp.68-73(SIP), pp.68-73(SP),
ページ数 6
発行日 2021-02-24 (EA, SIP, SP)