講演抄録/キーワード |
講演名 |
2016-01-14 15:10
スペクトル特徴量の次元間の関係性を用いた合成音声の客観評価 ○井島勇祐・浅見太一(NTT)・水野秀之(諏訪東京理科大) SP2015-90 |
抄録 |
(和) |
本論文では,統計的パラメトリック音声合成のためのスペクトル特徴量の次元間の関係性を用いた合成音声の客観評価指標を提案する.まず,スペクトル特徴量の次元間の関係性が合成音声の自然性に与える影響について,最大情報係数(Maximal Information Coefficient)を用いて分析を行うことで,スペクトル特徴量の次元間の関係性が弱い音声ほど高い主観評価値を持つ傾向が得られることを示す.次に,スペクトル特徴量の次元間の関係性を用いた客観評価指標について述べる.提案法では,入力されたスペクトル特徴量系列から次元間の関係性を捉えるために,声質変換手法を応用する.原音声,合成音声に対する主観評価実験,客観評価実験により,提案法の性能を評価する.実験結果より,提案法による客観評価指標は,従来より用いられているメルケプストラム距離と比較して,主観評価値との間に強い相関が得られることを示す. |
(英) |
This paper proposes a novel objective evaluation technique for statistical parametric speech synthesis. A novel point of the proposed technique is that it utilizes the association between dimensions within the spectral features. We first analyze the subjective scores obtained with respect to the associations of spectral features of natural and various synthesized speech by using a maximal information coefficient (MIC). The analysis results show that the scores improve with weaker association. We then propose the proposed objective evaluation index, which uses a voice conversion technique to detect the associations for each speech. We perform subjective and objective experiments and evaluate the performance results obtained by comparing them with the obtained subjective scores and the conventional objective evaluation index, i.e., mel-cepstral distortion. The results indicate that our proposed objective evaluation index is more effective than the mel-cepstral distortion. |
キーワード |
(和) |
統計的パラメトリック音声合成 / 客観評価 / スペクトル特徴量 / 最大情報係数 / / / / |
(英) |
Statistical parametric speech synthesis / objective evaluation / spectral features / maximal information coefficient / / / / |
文献情報 |
信学技報, vol. 115, no. 392, SP2015-90, pp. 27-32, 2016年1月. |
資料番号 |
SP2015-90 |
発行日 |
2016-01-07 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2015-90 |