講演名 2007-05-31
HMMを用いた話し言葉音声合成のためのモデルの検討
赤川 達也, 岩野 公司, 古井 貞煕,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,HMM音声合成に基づく話し言葉音声合成システムの構築と,そこで用いられるモデルの有効性に関する分析結果について報告する.我々の合成システムでは,ケプストラム情報はHMMでモデル化され,音素継続時間長(音素長)と基本周波数(F_O)情報は数量化I類でモデル化される.これら3つのモデルを,日本語話し言葉コーパスの学会講演音声を用いて学習し,話し言葉音声合成システムを構築した.このシステムの合成音声の「話し言葉らしさ」を評価するため,全てのそデルを読み上げ音声から学習して構築したシステムの合成音声との対比較実験を行ったところ,話し言葉音声を用いて構築したシステムの方が高い評価を得ることが確認された.これにより,実際の話し言葉音声を用いてHMM音声合成に基づく音声合成システムを構築することが,話し言葉らしい音声の合成に有効であることが示された.また,用いた3つのモデルについて,それぞれがどの程度,合成音声の話し言葉らしさ影響を与えているかに関する種々の分析を,被験者による聴取実験によって行った.
抄録(英) This paper describes construction of an HMM-based spontaneous speech synthesizer and investigates effectiveness of the statistical models in the system. In our system, cepstral features are modeled by HMMs and phoneme duration and fundamental frequency (F_O) features are modeled by Quantification Theory (Type 1). These three models are trained with spontaneous lecture speech extracted from the Corpus of Spontaneous Japanese (CSJ). For comparison, we prepared a speech synthesizer where all models were trained with read speech. Spontaneity of the synthesized spontaneous speech was evaluated by subjective pair comparison tests. Experimental results show that the preference score for the synthesized spontaneous speech is significantly higher than that for the synthesized read speech. This implies that HMM-based speech synthesis using actual spontaneous utterances for model training is effective for producing spontaneous speech. Additional subjective evaluations were also conducted to analyze the effect of individual models used in our synthesizer on the impression of spontaneity.
キーワード(和) 話し言葉音声合成 / HMM音声合成 / 日本語話し言葉コーパス / 数量化I類
キーワード(英) Spontaneous speech synthesis / HMM-based speech synthesis / Corpus of Spontaneous Japanese / Quantification Theory (Type 1)
資料番号 SP2007-3
発行日

研究会情報
研究会 SP
開催期間 2007/5/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) HMMを用いた話し言葉音声合成のためのモデルの検討
サブタイトル(和)
タイトル(英) A Study on the Statistical Models for HMM-Based Spontaneous Speech Synthesis
サブタイトル(和)
キーワード(1)(和/英) 話し言葉音声合成 / Spontaneous speech synthesis
キーワード(2)(和/英) HMM音声合成 / HMM-based speech synthesis
キーワード(3)(和/英) 日本語話し言葉コーパス / Corpus of Spontaneous Japanese
キーワード(4)(和/英) 数量化I類 / Quantification Theory (Type 1)
第 1 著者 氏名(和/英) 赤川 達也 / Tatsuya AKAGAWA
第 1 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 岩野 公司 / Koji IWANO
第 2 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 古井 貞煕 / Sadaoki FURUI
第 3 著者 所属(和/英) 東京工業大学大学院情報理工学研究科計算工学専攻
Department of Computer Science, Tokyo Institute of Technology
発表年月日 2007-05-31
資料番号 SP2007-3
巻番号(vol) vol.107
号番号(no) 77
ページ範囲 pp.-
ページ数 6
発行日