講演抄録/キーワード |
講演名 |
2015-08-21 15:50
統計的音声合成におけるエントロピーに基づく大規模学習文セット構築の評価 ○能勢 隆(東北大)・荒生侑介(大日本印刷)・小林隆夫(東工大)・杉浦孔明・志賀芳則(NICT) SP2015-57 |
抄録 |
(和) |
本稿では統計的音声合成において我々がこれまでに提案したエントロピーに基づく学習用文セットの構築法の評価を行った結果を報告する.提案法では従来の音素カバレッジのみを考慮した手法とは異なり,音素と韻律の両方のコンテキストのバランスを同時に考慮して文選択を行うことができる.これまでの実験では,文選択の母集団として数百文という比較的小規模な文数のデータを対象としていた.これに対し,実際に自然性の高い音声合成を実現するためには,より文数の多い文コーパスから文選択を行う必要がある.そこで本稿では単一話者による8,000文程度の音声コーパスを用い,ランダムに選んだ場合,従来のカバレッジに基づく手法を用いた場合,提案法の3種類の手法を客観評価により比較する. |
(英) |
This paper reports the evaluation results of training sentence set construction based on entropy that we previously proposed for statistical speech synthesis. The proposed method performs sentence selection by integrating phonetic and prosodic entropy, which achieves better balances of both phonetic and prosodic contexts. In the previous study, the source text corpus for the sentence selection is relatively small, i.e., less than several hundreds of sentences. The larger corpus size should be examined for the practical speech synthesis with more natural voices. In this paper, we use more than eight thousands of utterances of a single professional speaker as the population of sentence selection and compare the performance of three methods: random selection, coverage-based selection, and the proposed entropy-based selection. |
キーワード |
(和) |
統計的音声合成 / 文選択 / モデル学習 / エントロピー / コンテキスト / / / |
(英) |
statistical speech synthesis / sentence selection / model training / entropy / context / / / |
文献情報 |
信学技報, vol. 115, no. 184, SP2015-57, pp. 39-44, 2015年8月. |
資料番号 |
SP2015-57 |
発行日 |
2015-08-14 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2015-57 |