電子情報通信学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
‥‥ (ESS/通ソ/エレソ/ISS)
技報アーカイブ
‥‥ (エレソ/通ソ)
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2011-07-21 15:00
クラスタリングに基づくGMM学習法による話者モデルの構築
御船正樹鈴木基之任 福継北 研二徳島大SP2011-42
抄録 (和) 話者識別において話者モデルとしてガウス混合分布(GMM)が広く用いられている.
これはGMMが複雑な話者の特徴を確率分布として表現でき,
EMアルゴリズムでモデルのパラメータを推定できるからである.
しかし,モデルを推定するための訓練データが少ない場合や,
訓練データに対して混合数が多い場合は過学習を起こすという問題がある.
また,話者モデルとしてGMMを用いる場合,各ガウス分布が音響特徴が
類似した音声の一部とそれぞれ対応することが望ましい.
しかし,最尤推定でパラメータを推定した場合は,
必ずしも対応関係があるとはいえない.
そこでクラスタリングに基づいたGMM学習法を提案する.
これはクラスタリングを使用することで,ある一部の音声と
各ガウス分布との対応関係を明確にし,それぞれの分布に属する
特徴量を調整することで過学習を防ぐ.
本論文では,この提案方法によりパラメータを推定したGMMと,
最尤推定でパラメータを推定したGMMの話者識別率を比較した.
その結果,提案方法で推定したGMMは最尤推定でパラメータを推定したGMMに比べて
最大11.6%精度の改善が得られた. 
(英) In the speaker identification research fields,
Gaussian Mixture Models (GMM) are widely used as speaker models because characteristics of the speaker can be represented by using many Gaussians,
and parameters of GMM can be estimated automatically by using the EM algorithm. However, there is a overfitting problem when the number of training samples is small, or a number of parameters should be estimated.
In general, a speaker model represents many kinds of speech.
Therefore, it seems to be natural that each Gaussian in a GMM
corresponds to each part of speech, such as phoneme, words, and other kinds of clusters. However, we cannot find any correspondence between Gaussians and speech data.
キーワード (和) 話者認識 / 話者モデル / GMM / クラスタリング / 過学習 / / /  
(英) speaker recognition / speaker model / GMM / clustering / overfitting / / /  
文献情報 信学技報, vol. 111, no. 153, SP2011-42, pp. 7-10, 2011年7月.
資料番号 SP2011-42 
発行日 2011-07-14 (SP) 
ISSN Print edition: ISSN 0913-5685  Online edition: ISSN 2432-6380
著作権に
ついて
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード SP2011-42

研究会情報
研究会 SP  
開催期間 2011-07-21 - 2011-07-23 
開催地(和) 定山渓グランドホテル瑞苑 
開催地(英) Jozankei Grand Hotel 
テーマ(和) 認識,理解,対話,一般(SLPと合同(併催)) 
テーマ(英)  
講演論文情報の詳細
申込み研究会 SP 
会議コード 2011-07-SP 
本文の言語 日本語 
タイトル(和) クラスタリングに基づくGMM学習法による話者モデルの構築 
サブタイトル(和)  
タイトル(英) Construction of Speaker Model Using A New GMM Learning Method Based on Clustering 
サブタイトル(英)  
キーワード(1)(和/英) 話者認識 / speaker recognition  
キーワード(2)(和/英) 話者モデル / speaker model  
キーワード(3)(和/英) GMM / GMM  
キーワード(4)(和/英) クラスタリング / clustering  
キーワード(5)(和/英) 過学習 / overfitting  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 御船 正樹 / Masaki Mifune / ミフネ マサキ
第1著者 所属(和/英) 徳島大学 (略称: 徳島大)
The University of Tokushima (略称: Univ. of Tokushima)
第2著者 氏名(和/英/ヨミ) 鈴木 基之 / Motoyuki Suzuki / スズキ モトユキ
第2著者 所属(和/英) 徳島大学 (略称: 徳島大)
The University of Tokushima (略称: Univ. of Tokushima)
第3著者 氏名(和/英/ヨミ) 任 福継 / Fuji Ren / ニン フジ
第3著者 所属(和/英) 徳島大学 (略称: 徳島大)
The University of Tokushima (略称: Univ. of Tokushima)
第4著者 氏名(和/英/ヨミ) 北 研二 / Kenji Kita / キタ ケンジ
第4著者 所属(和/英) 徳島大学 (略称: 徳島大)
The University of Tokushima (略称: Univ. of Tokushima)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者
発表日時 2011-07-21 15:00:00 
発表時間 25 
申込先研究会 SP 
資料番号 IEICE-SP2011-42 
巻番号(vol) IEICE-111 
号番号(no) no.153 
ページ範囲 pp.7-10 
ページ数 IEICE-4 
発行日 IEICE-SP-2011-07-14 


[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]


IEICE / 電子情報通信学会