講演抄録/キーワード |
講演名 |
2008-07-18 14:00
大規模マイクロホンアレイによる発話方向推定の検討 ○菊池慶子・醍醐 徹(東京電機大)・中島弘史・中臺一博・長谷川雄二(ホンダ・リサーチ・インスティチュート・ジャパン)・金田 豊(東京電機大) EA2008-39 |
抄録 |
(和) |
本稿では,大規模マイクロホンアレイを用いた発話方向推定について報告する.筆者らは,先に音源の指向特性に基づいたビームフォーミング法を提案し,スピーカや人の発話方向推定について報告した.しかし,この手法において,ビームフォーマーの設計に用いる伝達関数は,対象となる音源の伝達関数を用いないと,性能が劣化するという問題点があった.また,発話区間の検出(VAD)も手動で行われているという問題点があった.前者の問題は異なる音源の伝達関数の位相差が主な原因と考えて,振幅伝達特性のみを利用したヒストグラムによる発話方向推定手法を提案した.後者については,非発話区間など信頼できない時間周波数特徴量のみを自動的にマスクするために,内積値に基づく音声周波数成分検出と自己相関を利用した発話区間検出を導入した.評価実験を通じて,スピーカの伝達関数を用いた場合でも,提案手法により人間の発話方向推定性能が大きく向上することを示した. |
(英) |
This paper addresses sound source orientation estimation using a 96ch microphone array. We proposed a beam-forming method with estimation of sound source directivity, and reported orientation estimation of a speech source such as a loudspeaker or an actual human. However, in this method, a transfer function to design a beam-former should be the same as that of target sound source. Otherwise the performance deteriorated due to a mismatch between these two transfer functions. In addition, voice activity detection (VAD) was manually performed. To solve the former, we proposed amplitude-based orientation estimation using a histogram to relax the effect of the mismatch problems mainly caused by phase errors and outliers. For the latter, speech frequency component detection based on inner product and automatic VAD based on auto-correlation are introduced to form a frequency-temporal masking pattern. Preliminary experiments showed that sound source orientation estimation with automatic VAD for actual human voices drastically improved even when using a loudspeaker-based transfer function. |
キーワード |
(和) |
発話方向検出 / 発話区間検出 / マイクロホンアレイ / / / / / |
(英) |
Sound orientation estimation / Voice activity detection (VAD) / Microphone array / / / / / |
文献情報 |
信学技報, vol. 108, no. 143, EA2008-39, pp. 13-18, 2008年7月. |
資料番号 |
EA2008-39 |
発行日 |
2008-07-11 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2008-39 |