講演名 2016-08-24
[ポスター講演]音声のスペクトル領域とケプストラム領域における同時強調
李 莉(筑波大), 亀岡 弘和(NTT), 樋口 卓哉(NTT), 猿渡 洋(東大), 牧野 昭二(筑波大),
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 従来の音声強調法は特徴量強調法と信号強調法に大別される.前者は音声特徴量を直接的に強調するため,特に雑音特性が既知の場合において音声認識などの性能向上に直結する一方で,未知雑音環境にいかに対応するかが重要課題である.後者は音声スペクトルモデルとスペクトル領域において音声と雑音の成分が加法的な関係にあることを利用できるため,未知雑音環境においても高い信号復元精度を実現できる一方で,音声特徴量が直接的に強調できるとは限らず音声認識などの性能に必ずしも直結しない傾向があった.そこで,本研究では両者の長所を併せ持つ新しい音声強調法の枠組を提案する.さらに,シミュレーション実験で提案手法の有効性を実証する.
抄録(英) While spectral domain speech enhancement algorithms using non-negative matrix factorization (NMF) are powerful in terms of signal recovery accuracy (e.g., signal-to-noise ratio), they do not necessarily lead to an improvement in the quality of the enhanced speech in the feature domain. This implies that naively using these algorithms as front-end processing for e.g., speech recognition and speech conversion does not always lead to satisfactory results. To address this problem, this paper proposes a novel method that aims to jointly enhance the spectral and cepstral sequences of noisy speech, by optimizing a combined objective function consisting of an NMF-based model-fitting criterion defined in the spectral domain and a Gaussian mixture model (GMM)-based probability distribution defined in the cepstral domain.
キーワード(和) 音声強調 / 非負値行列因子分解 / 補助関数法 / メル周波数ケプストラム係数 / 混合正規分布
キーワード(英) speech enhancement / Gaussian mixture model / non-negative matrix factorization / mel-frequency cepstral coefficients / majorization-minimization
資料番号 SP2016-32
発行日 2016-08-17 (SP)

研究会情報
研究会 SP
開催期間 2016/8/24(から2日開催)
開催地(和) 京都大学学術情報メディアセンター
開催地(英) ACCMS, Kyoto Univ.
テーマ(和) 音響イベント処理,一般
テーマ(英) Audio event processing, etc.
委員長氏名(和) 間野 一則(芝浦工大)
委員長氏名(英) Kazunori Mano(Shibaura Inst. of Tech.)
副委員長氏名(和) 森 大毅(宇都宮大)
副委員長氏名(英) Hiroki Mori(Utsunomiya Univ.)
幹事氏名(和) 滝口 哲也(神戸大) / 西田 昌史(静岡大)
幹事氏名(英) Tetsuya Takiguchi(Kobe Univ.) / Masafumi Nishida(Shizuoka Univ.)
幹事補佐氏名(和) 浅見 太一(NTT) / 橋本 佳(名工大)
幹事補佐氏名(英) Taichi Asami(NTT) / Kei Hashimoto(Nagoya Inst. of Tech.)

講演論文情報詳細
申込み研究会 Technical Committee on Speech
本文の言語 JPN
タイトル(和) [ポスター講演]音声のスペクトル領域とケプストラム領域における同時強調
サブタイトル(和)
タイトル(英) [Poster Presentation] Joint Enhancement of Spectral and Cepstral Sequences of Noisy Speech
サブタイトル(和)
キーワード(1)(和/英) 音声強調 / speech enhancement
キーワード(2)(和/英) 非負値行列因子分解 / Gaussian mixture model
キーワード(3)(和/英) 補助関数法 / non-negative matrix factorization
キーワード(4)(和/英) メル周波数ケプストラム係数 / mel-frequency cepstral coefficients
キーワード(5)(和/英) 混合正規分布 / majorization-minimization
第 1 著者 氏名(和/英) 李 莉 / Li Li
第 1 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ.Tsukuba)
第 2 著者 氏名(和/英) 亀岡 弘和 / Hirokazu Kameoka
第 2 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 3 著者 氏名(和/英) 樋口 卓哉 / Takuya Higuchi
第 3 著者 所属(和/英) 日本電信電話株式会社(略称:NTT)
Nippon Telegraph and Telephone Corporation(略称:NTT)
第 4 著者 氏名(和/英) 猿渡 洋 / Hiroshi Saruwatari
第 4 著者 所属(和/英) 東京大学(略称:東大)
University of Tokyo(略称:Univ.Tokyo)
第 5 著者 氏名(和/英) 牧野 昭二 / Shoji Makino
第 5 著者 所属(和/英) 筑波大学(略称:筑波大)
University of Tsukuba(略称:Univ.Tsukuba)
発表年月日 2016-08-24
資料番号 SP2016-32
巻番号(vol) vol.116
号番号(no) SP-189
ページ範囲 pp.29-32(SP),
ページ数 4
発行日 2016-08-17 (SP)