講演名 2011-07-21
クラスタリングに基づくGMM学習法による話者モデルの構築(話者認識・照合,認識,理解,対話,一般)
御船 正樹, 鈴木 基之, 任 福継, 北 研二,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 話者識別において話者モデルとしてガウス混合分布(GMM)が広く用いられている.これはGMMが複雑な話者の特徴を確率分布として表現でき,EMアルゴリズムでモデルのパラメータを推定できるからである.しかし,モデルを推定するための訓練データが少ない場合や,訓練データに対して混合数が多い場合は過学習を起こすという問題がある.また,話者モデルとしてGMMを用いる場合,各ガウス分布が音響特徴が類似した音声の一部とそれぞれ対応することが望ましい.しかし,最尤推定でパラメータを推定した場合は,必ずしも対応関係があるとはいえない.そこでクラスタリングに基づいたGMM学習法を提案する.これはクラスタリングを使用することで,ある一部の音声と各ガウス分布との対応関係を明確にし,それぞれの分布に属する特微量を調整することで過学習を防ぐ.本論文では,この提案方法によりパラメータを推定したGMMと,最尤推定でパラメータを推定したGMMの話者識別率を比較した.その結果,提案方法で推定したGMMは最尤推定でパラメータを推定したGMMに比べて最大11.6%精度の改善が得られた.
抄録(英) In the speaker identification research fields, Gaussian Mixture Models (GMM) are widely used as speaker models because characteristics of the speaker can be represented by using many Gaussians, and parameters of GMM can be estimated automatically by using the EM algorithm. However, there is a overfitting problem when the number of training samples is small, or a number of parameters should be estimated. In general, a speaker model represents many kinds of speech. Therefore, it seems to be natural that each Gaussian in a GMM corresponds to each part of speech, such as phoneme, words, and other kinds of clusters. However, we cannot find any correspondence between Gaussians and speech data.
キーワード(和) 話者認識 / 話者モデル / GMM / クラスタリング / 過学習
キーワード(英) speaker recognition / speaker model / GMM / clustering / overfitting
資料番号 SP2011-42
発行日

研究会情報
研究会 SP
開催期間 2011/7/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) クラスタリングに基づくGMM学習法による話者モデルの構築(話者認識・照合,認識,理解,対話,一般)
サブタイトル(和)
タイトル(英) Construction of Speaker Model Using A New GMM Learning Method Based on Clustering
サブタイトル(和)
キーワード(1)(和/英) 話者認識 / speaker recognition
キーワード(2)(和/英) 話者モデル / speaker model
キーワード(3)(和/英) GMM / GMM
キーワード(4)(和/英) クラスタリング / clustering
キーワード(5)(和/英) 過学習 / overfitting
第 1 著者 氏名(和/英) 御船 正樹 / Masaki MIFUNE
第 1 著者 所属(和/英) 徳島大学先端技術科学教育部
Graduate School of Advanced Technology and Science, The University of Tokushima
第 2 著者 氏名(和/英) 鈴木 基之 / Motoyuki SUZUKI
第 2 著者 所属(和/英) 徳島大学大学院ソシオテクノサイエンス研究部
Institute of Science and Technology, The University of Tokushima
第 3 著者 氏名(和/英) 任 福継 / Fuji REN
第 3 著者 所属(和/英) 徳島大学大学院ソシオテクノサイエンス研究部
Institute of Science and Technology, The University of Tokushima
第 4 著者 氏名(和/英) 北 研二 / Kenji KITA
第 4 著者 所属(和/英) 徳島大学大学院ソシオテクノサイエンス研究部
Institute of Science and Technology, The University of Tokushima
発表年月日 2011-07-21
資料番号 SP2011-42
巻番号(vol) vol.111
号番号(no) 153
ページ範囲 pp.-
ページ数 4
発行日