講演名 2005/8/19
アンサンブル学習に基づく音韻継続長のモデル化(合成, 生成, 韻律, 一般)
山岸 順一, 河井 恒, 平井 俊男, 小林 隆夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) テキスト音声合成において音韻継続長は合成音声のリズムやテンポの制御を担う重要な特徴量の一つである.この音韻継続長の制御は音韻・韻律情報や言語情報を説明変数とした予測問題と考えられ, 重回帰, 回帰木を用いた手法などが提案されている.本研究では, これらの音韻継続長の予測性能を向上させることを目的に, 複数の予測モデルを組み合わせる"アンサンブル学習"について検討する.ここでは, "Gradient Boosting"と呼ばれるアンサンブル学習を用いて, 回帰木の予測性能を効率的に向上させることについて検討する.この手法は予測モデルの残差を使用する逐次型のアンサンブル学習であり, 少ないパラメータ数で効率的に性能を向上させることできる.本論文ではこのアルゴリズムを日本語および中国語の音韻継続長予測へ応用し, 有効性について検討を行った.
抄録(英) Phone duration which controls rhythm and/or tempo of synthetic speech is one of important acoustic features for text-to-speech synthesis. Controlling phone duration can be viewed as an estimation problem of prediction function using several phonetic and prosodic features and linguistic information as explanatory variables of the function, and the methods based on multiple linear regression or regression tree have been applied to the duration prediction. In this study, to improve the prediction accuracy of the methods, we use "ensemble learning" that takes advantage of several prediction models. "Gradient boosting" is examined to efficiently improve the prediction accuracy of regression tree. The gradient boosting is recursive ensemble learning using residual error of the prediction models, and can improve the accuracy by small number of parameters. We apply the algorithm to the duration prediction of Japanese and Chinese and discuss the effectiveness.
キーワード(和) 音韻継続長 / アンサンブル学習 / 回帰木
キーワード(英) Phone duration / Ensemble learning / Regression tree / Boosting / Bagging
資料番号 SP2005-53
発行日

研究会情報
研究会 SP
開催期間 2005/8/19(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) アンサンブル学習に基づく音韻継続長のモデル化(合成, 生成, 韻律, 一般)
サブタイトル(和)
タイトル(英) Phone Duration Modeling Based on Ensemble Learning
サブタイトル(和)
キーワード(1)(和/英) 音韻継続長 / Phone duration
キーワード(2)(和/英) アンサンブル学習 / Ensemble learning
キーワード(3)(和/英) 回帰木 / Regression tree
第 1 著者 氏名(和/英) 山岸 順一 / Junichi YAMAGISHI
第 1 著者 所属(和/英) ATR音声言語コミュニケーション研究所:東京工業大学大学院総合理工学研究科物理情報システム専攻
Spoken Language Communication Research Laboratories, Advanced Telecommunications Research Institute International:Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 河井 恒 / Hisashi KAWAI
第 2 著者 所属(和/英) ATR音声言語コミュニケーション研究所:KDDI研究所
Spoken Language Communication Research Laboratories, Advanced Telecommunications Research Institute International:KDDI R&D Laboratories
第 3 著者 氏名(和/英) 平井 俊男 / Toshio HIRAI
第 3 著者 所属(和/英) ATR音声言語コミュニケーション研究所
Spoken Language Communication Research Laboratories, Advanced Telecommunications Research Institute International
第 4 著者 氏名(和/英) 小林 隆夫 / Takao KOBAYASHI
第 4 著者 所属(和/英) 東京工業大学大学院総合理工学研究科物理情報システム専攻
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
発表年月日 2005/8/19
資料番号 SP2005-53
巻番号(vol) vol.105
号番号(no) 253
ページ範囲 pp.-
ページ数 6
発行日