講演抄録/キーワード |
講演名 |
2014-12-16 11:00
MFCC領域におけるGMMクラスタリングを併用したNon-negative Matrix Factorizationによる雑音環境下音声認識 ○藤垣健太郎・柏木陽佑・齋藤大輔・峯松信明・広瀬啓吉(東大) SP2014-113 |
抄録 |
(和) |
雑音環境下音声認識において,事例ベースの特徴量強調としてNon-negative Matrix Factorization (NMF) を用いた手法が検討されている.スペクトル領域において雑音が加算性であることを利用し,雑音重畳音声のスペクトルを多数の音声基底,雑音基底とそのスパースな重み行列に分解することでクリーン音声を再構成する手法である.従来のNMF では,初期値を与え,これを繰り返し更新することで最終結果を得る。このとき,その音声の音素を教師として利用することができれば,基底や重み行列を音素依存で推定でき,より高精度に計算することが期待される.しかし,音声認識のタスクにおいて音素は認識すべき対象であり,事前には得られない.そこで本稿では,MFCC 領域でのGaussian Mixture Model (GMM) クラスタリングを併用したNMF を提案する.音素情報の代わりに,MFCC領域におけるGMM クラスタリングによって得られたクラス情報を用いて基底を準備することで,従来のNMF に比べて認識率を向上できることを示す. |
(英) |
Exemplar-based feature enhancement by non-negative matrix factorization (NMF) was proposed for noise-robust speech recognition. When we consider only additive noises, we can decompose a noisy speech spectrum into a linear but sparse combination of speech and noise bases. In the conventional NMF, decomposition is unsupervised. If we can give the phoneme sequence of an input utterance to the NMF processing, it is surely possible to realize much more precise decomposition. However, in the task of speech recognition, the phoneme sequence is unknown and unavailable. In this paper, therefore, we introduce unsupervised GMM clustering and classify each input frame by using GMM indexes. For NMF, speech bases are built separately for each GMM index. Experiments show that our proposed method of combining NMF with GMM clustering gives higher robustness of recognizing noisy speech than the original NMF. |
キーワード |
(和) |
雑音環境下音声認識 / 雑音抑圧 / 特徴量強調 / NMF / GMMクラスタリング / / / |
(英) |
robust speech recognition / noise surpression / feature enhancement / NMF / GMM clustering / / / |
文献情報 |
信学技報, vol. 114, no. 365, SP2014-113, pp. 69-74, 2014年12月. |
資料番号 |
SP2014-113 |
発行日 |
2014-12-08 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2014-113 |