講演名 2012/6/7
個人性を考慮した異言語音声合成に対する知覚評価(オーガナイズドセッション「音声知覚生成インタラクション・音声認識合成統合技術」,音声知覚生成/聴覚コミュニケーション,一般)
津崎 実, 徳田 恵一, 河井 恒, 志賀 芳則, 倪 晋富, 大浦 圭一郎, 塩田 さやか,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) HMM音声合成システムの話者適応技術を使用して,入力日本語音声の話者性を模した英語合成音声を出力する話者選択手法についての知覚評価実験を実施した.選択手法は英語音声のみより作られたGMMから日本語音声に対する尤度最大基準で選択するものと,バイリンガル・音声コーパスを利用して,日本語の空間から英語の空間ヘバイリンガル話者を参照点としてマッピングする方法,ならびにバイリンガル・音声コーパスによって構成された話者空間の座標を聴覚的特徴量による重回帰予測する方法の3種類であった.知覚評価課題は,2話者による日本語音声のいずれを合成英語音声が模していると思うかを強制選択する課題と,2種類の英語合成音声のいずれが先行呈示された日本語音声を模していると思うかを強制選択する課題の2種であった.前者の課題ではいずれの選択手法ともチャンス・レベルを有意に上回る選択が可能であることを示した.後者の課題では聴覚特徴量に基づく選択を除いてある程度の有効性が確認された.しかし選択正答率はいずれのケースもそれほど高いものではなく,さらなる改良の余地が存在することがうかがわれた.
抄録(英) Perceptual evaluation tests were performed for talker selection methods in the application of the speaker adaptation framework in an HMM speech synthesis technique. The speaker adaptation was tried to afford the personality of input Japanese utterances in synthesizing English utterances. Three selection methods as follows were evaluated: (a) choosing an acoustic model in the GMM built for the English corpus on the basis of the maximum likelihood to the input Japanese voice, (b) choosing by the weighted interpolation in the English space with the reference points of the bilingual speakers, (c) choosing by the multiple linear prediction using the auditory parameters estimated for the perceptual space of the bilingual speakers. Two types of perceptual tests were carried out. The first one was to ask listeners to choose one of the paired Japanese utterances which was heard to be "mimicked" by the English synthesized utterance. The second one was to ask listeners to choose one of the paired synthesized English utterances which was heard to "mimic" the Japanese natural utterance. The performances of all the selection methods were significantly above the chance in both tasks, except for the type (c) selection in the second task. However, the performance levels were not so high, which implies that further improvement will be required.
キーワード(和) 音声合成 / HMM合成 / 話者適応 / 知覚評価 / 話者個人性 / バイリンガル・音声コーパス
キーワード(英) speech synthesis / HMM synthesis / speaker adaptation / perceptual evaluation / personality / bilingual corpora
資料番号
発行日

研究会情報
研究会 SP
開催期間 2012/6/7(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 個人性を考慮した異言語音声合成に対する知覚評価(オーガナイズドセッション「音声知覚生成インタラクション・音声認識合成統合技術」,音声知覚生成/聴覚コミュニケーション,一般)
サブタイトル(和)
タイトル(英) Perceptual evaluation of synthesized speech reflecting "personalities"
サブタイトル(和)
キーワード(1)(和/英) 音声合成 / speech synthesis
キーワード(2)(和/英) HMM合成 / HMM synthesis
キーワード(3)(和/英) 話者適応 / speaker adaptation
キーワード(4)(和/英) 知覚評価 / perceptual evaluation
キーワード(5)(和/英) 話者個人性 / personality
キーワード(6)(和/英) バイリンガル・音声コーパス / bilingual corpora
第 1 著者 氏名(和/英) 津崎 実 / Minoru TSUZAKI
第 1 著者 所属(和/英) 京都市立芸術大学音楽学部
Faculty of Music, Kyoto City University of Arts
第 2 著者 氏名(和/英) 徳田 恵一 / Keiichi TOKUDA
第 2 著者 所属(和/英) 名古屋工業大学工学部
Faculty of Engineering, Nagoya Institute of Technology
第 3 著者 氏名(和/英) 河井 恒 / Hisashi KAWAI
第 3 著者 所属(和/英) (株)KDDI研究所ヒューマンコミュニケーション部門
KDDI R&D Laboratories
第 4 著者 氏名(和/英) 志賀 芳則 / Yoshinori SHIGA
第 4 著者 所属(和/英) (独)情報通信研究機構ユニバーサルコミュニケーション研究所
Universal Communication Research Institute, NICT
第 5 著者 氏名(和/英) 倪 晋富 / Jinfu NI
第 5 著者 所属(和/英) 名古屋工業大学工学部
Faculty of Engineering, Nagoya Institute of Technology
第 6 著者 氏名(和/英) 大浦 圭一郎 / Keiichiro OURA
第 6 著者 所属(和/英) 名古屋工業大学工学部
Faculty of Engineering, Nagoya Institute of Technology
第 7 著者 氏名(和/英) 塩田 さやか / Sayaka SHIOTA
第 7 著者 所属(和/英) 名古屋工業大学工学部
Faculty of Engineering, Nagoya Institute of Technology
発表年月日 2012/6/7
資料番号
巻番号(vol) vol.112
号番号(no) 81
ページ範囲 pp.-
ページ数 6
発行日