講演抄録/キーワード |
講演名 |
2012-03-12 11:25
階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング ○俵 直弘・小川哲司(早大)・渡部晋治(NTT/MERL)・中村 篤(NTT)・小林哲則(早大) IBISML2011-90 |
抄録 |
(和) |
階層的構造を持つフルベイズ発話生成モデルを定式化し,このモデルの構造を推定することで,複数人により発話された音声データに対して話者クラスタリングと話者数の推定を同時に行う手法を提案する.提案手法では,話者の分布として混合ガウス分布を導入し,これら話者分布を混合要素としてもつ階層的な混合モデルとして発話生成モデルを定式化する.このとき,このモデルの厳密な推定は困難であるが,サンプリングに基づいた手法を導入することで近似的に推定できることを示す.提案モデルを用いることにより,従来手法では良好な性能が得られなかった話者ごとに発話数が大きく異なるデータに対して,頑健なクラスタリングが行えることを示す. |
(英) |
We proposed a novel speaker clustering method by estimating the structure of a fully Bayesian utterance generative model with a hierarchical structure. We defined the hierarchical generative model as a mixture of GMMs, which represent each speaker's distribution. We approximately estimated this model by introducing a sampling method because strict estimation of this model was infeasible. From speaker clustering experiments, we showed that the proposed method was effective to the data in which the number of utterances varied from speaker to speaker, while the conventional method caused significant degradation in clustering accuracy for these data. |
キーワード |
(和) |
話者クラスタリング / フルベイズモデル / サンプリング / 発話単位ディリクレ過程混合モデル / / / / |
(英) |
Speaker clustering / Fully Bayesian model / Sampling / Utterance-oriented Dirichlet process mixture model / / / / |
文献情報 |
信学技報, vol. 111, no. 480, IBISML2011-90, pp. 21-28, 2012年3月. |
資料番号 |
IBISML2011-90 |
発行日 |
2012-03-05 (IBISML) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IBISML2011-90 |