話者の特徴と感情表現を制御可能なDNN音声合成方式の検討

○栗原　清; 清山信正; 今井　篤; 都木　徹

大会名称
2017年総合大会
大会コ－ド
2017G
開催年
2017
発行日

セッション番号
D-14
セッション名
音声
講演日
2017/3/24
講演場所(会議室等)
共通講義棟北　N501
講演番号
D-14-10
タイトル
話者の特徴と感情表現を制御可能なDNN音声合成方式の検討
著者名
○栗原　清, 清山信正, 今井　篤, 都木　徹,
キーワード
音声合成
抄録
近年、統計モデルを用いた音声合成技術が進展し、スマートフォンやパソコンを通して我々の身近なサービスとして使用できるようになってきた。NHKでは音声合成を用いて解説放送を補完する音声ガイドシステムに関する研究を進めている。ガイド音声を提示する際には演出効果として、多様な話者の特徴や感情表現が求められている。統計モデルとしてHMMを用いた音声合成では、話者の特徴や感情表現を制御可能な音声合成が実現している。本稿ではHMM音声合成よりも一般的に音質の評価が高いDNN音声合成において、話者の特徴と感情表現を同時に制御可能な方式を提案し、その有効性を示す。
本文pdf
PDF download PayPerView