講演名 2002/8/22
波形接続型テキスト音声合成における素片選択コストの知覚的評価
戸田 智基, 河井 恒, 津崎 実, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 素片選択に基づく波形接続型テキスト音声合成において自然性の高い合成音声を得るためには,知覚特性に一致したコストを用いることが重要である.本稿では知覚実験により求めた知覚スコアを用いることにより,コストの知覚特性に基づく評価を行う.その際に,コストと知覚スコア間の対応関係を明らかにするだけでなく,素片系列のコストを求めるために必要な各素片におけるコストを統合する関数についても検討する.実験結果から,合成音声全体における平均的な自然性劣化を表す平均コストは,局所的な自然性劣化を表す最大コストよりも知覚スコアとの対応が良いことを示す.また,平均的な自然性劣化と局所的な自然性劣化の両方を考慮するコストであるRMSコストを用いた際に,最も知覚スコアとの対応が良いことも示す.さらに,RMSコストによる素片選択に関しての検討を行うことにより,RMSコスト使用時には局所的な大きな自然性劣化を防ぐために,より短い単位の素片が多く用いられる傾向があることを示す.
抄録(英) In segment selection for concatenative Text-to-Speech, it is important to utilize a cost that corresponds to the perceptual characteristics in order to synthesis speech more naturally. We clarify correspondence to the perceptual scores of the cost, and then various functions to integrate the costs are evaluated. The perceptual scores are determined from results of perceptual experiments on the naturalness of synthetic speech. The results show that the average cost, which shows the naturalness degradation over the entire synthetic speech has better correspondence to the perceptual scores than the maximum cost, which shows the local naturalness degradation. Furthermore, RMS (Root Mean Square) cost, which is affected by both the average cost and the maximum cost, has the best correspondence. We also clarify that segment selection with RMS cost is tend to select a larger number of segments with shorter units which only cause slight local naturalness degradation are selected as an optimum set of segments.
キーワード(和) テキスト音声合成 / 素片選択 / コスト / 知覚特性 / コスト統合関数
キーワード(英) Text-to-Speech / segment selection / cost / perceptual characteristic / cost integration
資料番号 SP2002-69
発行日

研究会情報
研究会 SP
開催期間 2002/8/22(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 波形接続型テキスト音声合成における素片選択コストの知覚的評価
サブタイトル(和)
タイトル(英) Perceptual Evaluation of Cost for Segment Selection in Concatenative Text-to-Speech Synthesis
サブタイトル(和)
キーワード(1)(和/英) テキスト音声合成 / Text-to-Speech
キーワード(2)(和/英) 素片選択 / segment selection
キーワード(3)(和/英) コスト / cost
キーワード(4)(和/英) 知覚特性 / perceptual characteristic
キーワード(5)(和/英) コスト統合関数 / cost integration
第 1 著者 氏名(和/英) 戸田 智基 / Tomoki TODA
第 1 著者 所属(和/英) ATR音声言語コミュニケーション研究所:奈良先端科学技術大学院大学情報科学研究科
ATR Spoken Language Translation Research Laboratories:Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 河井 恒 / Hisashi KAWAI
第 2 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratories
第 3 著者 氏名(和/英) 津崎 実 / Minoru TSUZAKI
第 3 著者 所属(和/英) ATR音声言語コミュニケーション研究所
ATR Spoken Language Translation Research Laboratories
第 4 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
発表年月日 2002/8/22
資料番号 SP2002-69
巻番号(vol) vol.102
号番号(no) 291
ページ範囲 pp.-
ページ数 6
発行日