講演名 2010-01-21
平均声に基づく対話音声合成に関する検討(テーマセッション,クロスモーダル)
郡山 知樹, 能勢 隆, 小林 隆夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 少量の音声データから自然な対話音声を合成することを目的とし,平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う.対話音声は自発性が高く,朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため,目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより,目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である.本研究では,対話音声,読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した.実験結果から,提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ,また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が,客観評価において優れた結果となった.
抄録(英) This paper describes a conversational speech synthesis technique using average voice model and model adaptation based on hidden semi-Markov model (HSMM). In conversational speech, the acoustic features are affected by various factors such as speaker individuality, speaking style, and speaker's intention, and it is not easy to generate natural sounding speech using a small amount of speech data of a target speaker. To overcome this problem, the proposed technique utilizes an average voice model trained in advance using multiple speakers' speech data and adapts the model to the target speaker's one using a speaker adaptation technique. We can generate synthetic speech even if the available speech data of the target speaker is very limited. In this study, we evaluate the performance of the proposed technique by objective measures. We use two types of average voice models, one is trained with read speech, and the other with conversational speech. The experimental results show that the distortion of spectral and pitch features between synthetic and original speech samples decreases when using the proposed techniaue.
キーワード(和) 対話音声 / 話し言葉音声 / HMM音声合成 / 平均声モデル / 話者適応 / スタイル適応
キーワード(英) conversational speech / spontaneous speech / HMM-based speech synthesis / average voice model / speaker adaptation / style adaptation
資料番号 CQ2009-61,PRMU2009-160,SP2009-101,MVE2009-83
発行日

研究会情報
研究会 MVE
開催期間 2010/1/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Media Experience and Virtual Environment (MVE)
本文の言語 JPN
タイトル(和) 平均声に基づく対話音声合成に関する検討(テーマセッション,クロスモーダル)
サブタイトル(和)
タイトル(英) A Study on Conversational Speech Synthesis Based on Average Voice Model
サブタイトル(和)
キーワード(1)(和/英) 対話音声 / conversational speech
キーワード(2)(和/英) 話し言葉音声 / spontaneous speech
キーワード(3)(和/英) HMM音声合成 / HMM-based speech synthesis
キーワード(4)(和/英) 平均声モデル / average voice model
キーワード(5)(和/英) 話者適応 / speaker adaptation
キーワード(6)(和/英) スタイル適応 / style adaptation
第 1 著者 氏名(和/英) 郡山 知樹 / Tomoki KORIYAMA
第 1 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 能勢 隆 / Takashi NOSE
第 2 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 小林 隆夫 / Takao KOBAYASHI
第 3 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
発表年月日 2010-01-21
資料番号 CQ2009-61,PRMU2009-160,SP2009-101,MVE2009-83
巻番号(vol) vol.109
号番号(no) 376
ページ範囲 pp.-
ページ数 6
発行日