講演抄録/キーワード |
講演名 |
2019-08-28 14:40
[ポスター講演]DNN音声合成を用いたアナウンサーと素人話者間の韻律的特徴の分析 ○大鶴拓哉(東大)・井島勇祐(NTT)・齋藤大輔・峯松信明(東大) SP2019-11 |
抄録 |
(和) |
本稿では,プロアナウンサーとアマチュア話者の韻律の違いが,どのように聞き手の印象に影響を与えるかについて分析する。プロのアナウンサーの音声は,アナウンサーという彼らの職業を容易に示唆する。人間は他人の音声から多くの音響的要素を認識するが,その音声をプロフェッショナルなものとする上でどの要素が支配的であるかは明確ではない。そこで本研究では,ディープニューラルネットワーク(DNN)音声合成による合成音声を使用した大規模な聴取実験を行った。話者毎に学習したDNN音響モデルを切り替えることで,音素継続長や基本周波数(F0)を話者毎に部分置換した複数種類の音声を合成した。聴取実験では,被験者は提示された2種類の音声の内,よりプロのアナウンサーの音声としてふさわしいと感じた方を選択した。聴取実験の結果は,聞き手の印象は音素継続長とF0両方の影響を受けるが,F0の方がより強く影響を与えることを示した。また,実験結果と合成音の音響特徴量間の相関についても分析を行った。 |
(英) |
This paper analyzes prosodic differences between a professional newscaster and amateur speakers which affects listeners’ perceptual impression. Speech of professional newscasters easily suggest us his/her occupation, that is newscaster. Although people perceive many factors from human’s speech, it is not revealed what factors are dominant for him/her to be professional. To this end, we conduct a large scale perceptual experiment using synthesized speech by deep neural networks (DNN) based speech synthesis. Speech stimuli are synthesized, in which prosodic features such as phoneme duration or F0 are partially substituted to those of target speakers by changing DNN trained from professional and amateur speakers. Listeners are asked to choose one speech which he/she thought that it is more acceptable as speech of a newscaster. The results of the perceptual experiment indicate that listeners’ impressions are affected by F0 rather than phoneme duration, although both features affect the listeners impressions. We further analyze the relationship between the obtained perceptual scores and some prosodic related
features. |
キーワード |
(和) |
韻律 / アナウンサー / アマチュア話者 / 音素継続長 / 基本周波数 / 音声合成 / / |
(英) |
prosodic features / professional newscaster / amateur speakers / phoneme duration / fundamental frequency / speech synthesis / / |
文献情報 |
信学技報, vol. 119, no. 188, SP2019-11, pp. 13-18, 2019年8月. |
資料番号 |
SP2019-11 |
発行日 |
2019-08-21 (SP) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2019-11 |