講演名 2011-06-23
NMFとVQ手法による音楽重畳音声の音声認識(音声・言語・音響教育,一般)
仲野 翔一, 山本 一公, 中川 聖一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声認識の性能は,雑音の影響を大きく受けるため,前処理として雑音の影響を軽減する処理を行う必要がある.一般的な雑音除去手法であるスペクトルサブトラクション法やWienerフィルタは,定常的な雑音に対しては有効であるが,非定常な雑音に対しては有効でない.そこで本稿では非定常な信号である音楽が背景雑音として重畳された音楽重畳音声からの音楽除去をベクトル量子化手法と非負値行列因子分解の2つの手法で比較・検討を行う.評価実験として,孤立単語認識実験を行った.ピアノ音だけの音楽のとき,クリーン音声のモデルで認識した場合,音楽除去を行うことで除去を行わない場合に比べて単語認識率で約15%の改善が得られた.また,音楽除去を行った後の音声でモデルを作ることで,0dBでも約90%と高い認識率が得られた.また,音楽がピアノ三重奏の場合でも同様な効果のあることを示す.さらに,聴取実験を行い人間の聴覚と計算機での認識性能の比較も行った.
抄録(英) For speech recognition in the presence of noise, it is necessary to reduce the effect of the noise. The spectral subtraction and Wiener filter based methods are general techniques for noise removal. Although these methods are valid for stationary noise, they are not effective for non-stationary noise. This paper describes a speech recognition method for mixed sound, consisting of speech and music, that removes the music only based on vector quantization and non-negative matrix factorization. For isolated word recognition using the clean speech model, an improvement of about 15% was obtained compared with the case of not removing music. Furthermore, a high recognition rate of about 90% was achieved, even under the 0 dB condition using a model trained from the mixed sound after removing the music according. We also applied the proposed method to piano trio, and confirmed the effectiveness. Finally, we also compared the human performance by listening test and machine recognition performance.
キーワード(和) 音声認識 / 音楽重畳音声 / 音楽除去 / ピアノ三重奏 / ベクトル量子化 / 非負値行列因子分解
キーワード(英) speech recognition / mixed sound / music removal / piano trio / vector quantization / non-negative matrix factorization
資料番号 SP2011-34
発行日

研究会情報
研究会 SP
開催期間 2011/6/16(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) NMFとVQ手法による音楽重畳音声の音声認識(音声・言語・音響教育,一般)
サブタイトル(和)
タイトル(英) Speech recognition in mixed sound of speech and music by vector quantization and non-negative matrix factorization
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) 音楽重畳音声 / mixed sound
キーワード(3)(和/英) 音楽除去 / music removal
キーワード(4)(和/英) ピアノ三重奏 / piano trio
キーワード(5)(和/英) ベクトル量子化 / vector quantization
キーワード(6)(和/英) 非負値行列因子分解 / non-negative matrix factorization
第 1 著者 氏名(和/英) 仲野 翔一 / Shoichi NAKANO
第 1 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
第 2 著者 氏名(和/英) 山本 一公 / Kazumasa YAMAMOTO
第 2 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
第 3 著者 氏名(和/英) 中川 聖一 / Seiichi NAKAGAWA
第 3 著者 所属(和/英) 豊橋技術科学大学
Toyohashi University of Technology
発表年月日 2011-06-23
資料番号 SP2011-34
巻番号(vol) vol.111
号番号(no) 97
ページ範囲 pp.-
ページ数 6
発行日