講演名 2009-06-25
F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
神山 歩相名, 篠崎 隆宏, 岩野 公司, 古井 貞煕,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,数量化I類によるF_0パターン生成モデルの話者適応手法を提案する.本手法では,複数の話者による大量の音声を用いて,日本語(標準語)として自然なF_0パターンを学習し,少量の話者依存音声データを用いて,特定話者に合わせて平均値を置換することで,自然性が高くかつ個人に適応したモデルを作成する.この手法によって求めたモデルについて,客観評価実験を行ったところ,5文程度で話者適応が可能であることが確認できた.また,主観評価実験を行ったところ,450文で学習したモデルによる合成音と50文で適応したモデルの合成音に,ほぼ同程度の自然性が認められた.これより,適応手法が自然性に優れた話者適応法であることが確認された.
抄録(英) This paper proposes a new speaker adaptation method for the fundamental frequency (F_0) contour generation models based on the Quantification Theory (Type I). In this method, natural F_0 contour producing models for standard Japanese are trained using a large amount of speech data from many speakers, and natural as well as speaker-specific F_0 contours are generated by adapting mean F_0 values using a small amount of speech data from a specific speaker. Objective evaluation results using the models made by the proposed method confirm that around five sentences are enough for speaker adaptation. Subjective evaluation results confirm that naturalness of the synthesized speech using models adapted by 50 sentences is almost equivalent to that of the synthesized speech using models trained by 450 sentences for a specific speaker. These results indicate that the proposed adaptation method can produce highly natural synthesized speech.
キーワード(和) HMM音声合成 / 数量化I類 / F_0パターン / 韻律制御 / 話者適応
キーワード(英) HMM-based Speech Synthesis / Quantification Theory (Type I) / F_0 Contour Generation / Prosody Control / Speaker Adaptation
資料番号 SP2009-38
発行日

研究会情報
研究会 SP
開催期間 2009/6/17(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
サブタイトル(和)
タイトル(英) A mean F_0 speaker adaptation method for regression model-based F_0 contour generation
サブタイトル(和)
キーワード(1)(和/英) HMM音声合成 / HMM-based Speech Synthesis
キーワード(2)(和/英) 数量化I類 / Quantification Theory (Type I)
キーワード(3)(和/英) F_0パターン / F_0 Contour Generation
キーワード(4)(和/英) 韻律制御 / Prosody Control
キーワード(5)(和/英) 話者適応 / Speaker Adaptation
第 1 著者 氏名(和/英) 神山 歩相名 / Hosana KAMIYAMA
第 1 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 篠崎 隆宏 / Takahiro SHINOZAKI
第 2 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 岩野 公司 / Koji IWANO
第 3 著者 所属(和/英) 東京都市大学環境情報学部情報メディア学科
Faculty of Environmental and Information Studies, Tokyo City University
第 4 著者 氏名(和/英) 古井 貞煕 / Sadaoki FURUI
第 4 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2009-06-25
資料番号 SP2009-38
巻番号(vol) vol.109
号番号(no) 99
ページ範囲 pp.-
ページ数 6
発行日