講演名 2008-07-18
大規模マイクロホンアレイによる発話方向推定の検討(音響信号処理/一般)
菊池 慶子, 醍醐 徹, 中島 弘史, 中臺 一博, 長谷川 雄二, 金田 豊,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,大規模マイクロホンアレイを用いた発話方向推定について報告する.筆者らは,先に音源の指向特性に基づいたビームフォーミング法を提案し,スピーカや人の発話方向推定について報告した.しかし,この手法において,ビームフォーマーの設計に用いる伝達関数は,対象となる音源の伝達関数を用いないと,性能が劣化するという問題点があった.また,発話区間の検出(VAD)も手動で行われているという問題点があった.前者の問題は異なる音源の伝達関数の位相差が主な原因と考えて,振幅伝達特性のみを利用したヒストグラムによる発話方向推定手法を提案した.後者については,非発話区間など信頼できない時間周波数特徴量のみを自動的にマスクするために,内積値に基づく音声周波数成分検出と自己相関を利用した発話区間検出を導入した.評価実験を通じて,スピーカの伝達関数を用いた場合でも,提案手法により人間の発話方向推定性能が大きく向上することを示した.
抄録(英) This paper addresses sound source orientation estimation using a 96ch microphone array. We proposed a beam-forming method with estimation of sound source directivity, and reported orientation estimation of a speech source such as a loudspeaker or an actual human. However, in this method, a transfer function to design a beam-former should be the same as that of target sound source. Otherwise the performance deteriorated due to a mismatch between these two transfer functions. In addition, voice activity detection (VAD) was manually performed. To solve the former, we proposed amplitude-based orientation estimation using a histogram to relax the effect of the mismatch problems mainly caused by phase errors and outliers. For the latter, speech frequency component detection based on inner product and automatic VAD based on auto-correlation are introduced to form a frequency-temporal masking pattern. Preliminary experiments showed that sound source orientation estimation with automatic VAD for actual human voices drastically improved even when using a loudspeaker-based transfer function.
キーワード(和) 発話方向検出 / 発話区間検出 / マイクロホンアレイ
キーワード(英) Sound orientation estimation / Voice activity detection (VAD) / Microphone array
資料番号 EA2008-39
発行日

研究会情報
研究会 EA
開催期間 2008/7/11(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Engineering Acoustics (EA)
本文の言語 JPN
タイトル(和) 大規模マイクロホンアレイによる発話方向推定の検討(音響信号処理/一般)
サブタイトル(和)
タイトル(英) Estimation of sound source orientation using a 96 channel microphone array
サブタイトル(和)
キーワード(1)(和/英) 発話方向検出 / Sound orientation estimation
キーワード(2)(和/英) 発話区間検出 / Voice activity detection (VAD)
キーワード(3)(和/英) マイクロホンアレイ / Microphone array
第 1 著者 氏名(和/英) 菊池 慶子 / Keiko KIKUCHI
第 1 著者 所属(和/英) 東京電機大学工学部
Faculty of Engineering, Tokyo Denki University
第 2 著者 氏名(和/英) 醍醐 徹 / Tohru DAIGO
第 2 著者 所属(和/英) 東京電機大学工学部
Faculty of Engineering, Tokyo Denki University
第 3 著者 氏名(和/英) 中島 弘史 / Hirofumi NAKAJIMA
第 3 著者 所属(和/英) (株)ホンダ・リサーチ・インスティチュート・ジャパン
Honda Research Institute Japan Co., Ltd.
第 4 著者 氏名(和/英) 中臺 一博 / Kazuhiro NAKADAI
第 4 著者 所属(和/英) (株)ホンダ・リサーチ・インスティチュート・ジャパン
Honda Research Institute Japan Co., Ltd.
第 5 著者 氏名(和/英) 長谷川 雄二 / Yuji HASEGAWA
第 5 著者 所属(和/英) (株)ホンダ・リサーチ・インスティチュート・ジャパン
Honda Research Institute Japan Co., Ltd.
第 6 著者 氏名(和/英) 金田 豊 / Yutaka KANEDA
第 6 著者 所属(和/英) 東京電機大学工学部
Faculty of Engineering, Tokyo Denki University
発表年月日 2008-07-18
資料番号 EA2008-39
巻番号(vol) vol.108
号番号(no) 143
ページ範囲 pp.-
ページ数 6
発行日