講演名 2004/9/10
周波数領域両耳聴モデルによる音源方向推定と音源分離(音声・音響情報システム及び一般)
中島 栄俊, 苣木 禎史, 宇佐川 毅,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) カクテルパーティ効果として知られているように,我々は雑音環境下において目的の音を聞き取ることができる.この効果は両耳聴機能に基づくものであり,音源の到来方向を利用し,特定音源のみを抽出ていると考えられている.カクテルパーティ効果の根幹をなす両耳聴のコンピュータモデルに関する研究はこれまでに行われていたが,我々は演算量が少なく信号分離性能の高い周波数領域両耳聴モデル(Frequency Domain Binauial Model : FDBM)を提案してきた.本論文ではこのFDBMの音源方向推定アルゴリズムおよび音源分離アルゴリズムについて述べる.同時にコンピュータシミュレーションによるFDBMの性能評価実験結果を示す.この評価実験ではFDBMの信号分離性能をシステムの入出力波形を見ることで主観評価している.更にFDBMを音声認識装置のフロントエンドとして用いることを想定し,音声認識率で分離性能を客観評価した.この結果,目的音源が妨害音源と20°程度離れていれば音声認識率が約90%以上になることを示した.これにより,FDBMの音声強調システムとしての有効性を示した.
抄録(英) As known as a "Cocktail Party Effect", we can communicate others under noisy environments. This effect is based on binaural functions and the human segregates the specific sound by using directional information as a cue of the sound. The computational model for cocktail party effect has been studied, we also proposed it as called "Frequency Domain Binaural Model (FDBM)" which has some characteristics such as less computational load, high segregation quality, and the keep the binaural information of the segregated sound. In this paper, the basic algorithm of FDBM and its performance for segregation obtained by the computer simulations are addressed. According to the evaluation as a speech enhancer, the envelope of the segregated signal is recovered and quite similar to the one of the target signal. On the other hand, more than 90% recognition rates are obtained in speech recognition task, when the azimuth of reception of the target signal and noise differs by 10°.
キーワード(和) 両耳聴モデル / 周波数領域 / 両耳間位相差 / 両耳間レベル差 / 頭部伝達関数 / 音源分離 / 音源方向推定
キーワード(英) Binaural Model / Frequency Domain / Interaural Phase Difference / Interaural Level Difference / Head-Related Transfer Function / Sound Segregation / Direction of Arrival Estimation
資料番号 EA2004-71,SIP2004-75,SIS2004-42
発行日

研究会情報
研究会 SIS
開催期間 2004/9/10(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Smart Info-Media Systems (SIS)
本文の言語 JPN
タイトル(和) 周波数領域両耳聴モデルによる音源方向推定と音源分離(音声・音響情報システム及び一般)
サブタイトル(和)
タイトル(英) DOA estimation and speech signal segregation based on frequency domain binaural model
サブタイトル(和)
キーワード(1)(和/英) 両耳聴モデル / Binaural Model
キーワード(2)(和/英) 周波数領域 / Frequency Domain
キーワード(3)(和/英) 両耳間位相差 / Interaural Phase Difference
キーワード(4)(和/英) 両耳間レベル差 / Interaural Level Difference
キーワード(5)(和/英) 頭部伝達関数 / Head-Related Transfer Function
キーワード(6)(和/英) 音源分離 / Sound Segregation
キーワード(7)(和/英) 音源方向推定 / Direction of Arrival Estimation
第 1 著者 氏名(和/英) 中島 栄俊 / Hidetoshi NAKASHIMA
第 1 著者 所属(和/英) 熊本電波工業高等専門学校
Kumamoto National College of Technology
第 2 著者 氏名(和/英) 苣木 禎史 / Yoshifumi CHISAKI
第 2 著者 所属(和/英) 熊本大学工学部
Faculty of Engineering, Kumamoto University
第 3 著者 氏名(和/英) 宇佐川 毅 / Tsuyoshi USAGAWA
第 3 著者 所属(和/英) 熊本大学工学部
Faculty of Engineering, Kumamoto University
発表年月日 2004/9/10
資料番号 EA2004-71,SIP2004-75,SIS2004-42
巻番号(vol) vol.104
号番号(no) 308
ページ範囲 pp.-
ページ数 6
発行日