講演抄録/キーワード |
講演名 |
2008-10-23 16:30
CRFと統計的F0モデルに基づく連続音声のアクセント型自動推定 ○鈴木和博・山本麻実・趙 國・山下洋一(立命館大) SP2008-61 |
抄録 |
(和) |
音声合成における話者モデルを容易に構築するため,アクセント型ラベルを自動推定する手法を提案する。発話内容が既知の文発話音声に対して,アクセント句境界がすでに決定されている条件のもとで,統計的F0モデルとCRFを用いてアクセント型を推定する。統計的F0モデルは,アクセント型を付与された学習データを用いて構築され,アクセント型を含めた言語情報とF0パターンとの関係を表現する。CRFは自然言語処理等でラベル付け問題に利用される確率モデルである。これらのモデルと,発話内容から得られる各言語素性情報を用いてアクセント型を推定することにより,自由発話のCSJに対して82.6%,読み上げ音声のATR503文に対して86.8%の推定精度を得ることができた。 |
(英) |
This paper proposes methods of automatic estimation of the accent type for spoken sentences in order to facilitate building of speaker models for speech synthesis systems. The accent type is estimated by CRF (Conditional Random Fields) and a stochastic F0 model under the condition that the content of the speech and the accent phrase boundary are given. A stochastic F0 model is trained with the learning data of which the accent type is given, and it describes the relation between the F0 pattern and linguistic information which includes accent type labels. CRF is a probabilistic model used for labeling in natural language processing and so on. The estimation experiment was done by using these models and linguistic features obtained from the contents. As a result, the estimation rate of 82.6% and 86.8% were obtained for CSJ (Corpus of Spontaneous Japanese) and ATR 503 sentences, respectively. |
キーワード |
(和) |
テキスト音声合成 / アクセント型 / クラスタリング / F0モデル / CRF / / / |
(英) |
Text-to-speech synthesis / Accent type / Clustering / F0 model / Conditional Random Fields / / / |
文献情報 |
信学技報, vol. 108, no. 265, SP2008-61, pp. 31-36, 2008年10月. |
資料番号 |
SP2008-61 |
発行日 |
2008-10-16 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2008-61 |