講演名 2007/1/18
正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
博田 遊亀, 西浦 敬信, 山下 洋一,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定法を提案する.提案手法は頑健な特徴量として,全方位に拡張したWCSP (Weighted Cross-power Spectrum Phase)法とCSP係数サブトラクションによって音響特徴量を,正規化距離に基づく背景差分法とT-S色平面における肌色検出法によって画像特徴量を抽出する.さらに,音響特徴量の信頼度に基づいて決定される重み係数を用いた特徴量の重み付き統合を行い,話者方位を推定する.実オフィス環境における評価実験の結果,提案する全方位マルチモーダル話者方位推定法は,音響/画像特徴量を単独で用いる従来手法よりも誤棄却率/誤検出率を改善できることが確認できた.
抄録(英) This paper proposes an omnidirectional multimodal estimation method for talker direction with equilateral triangular microphone array and omnidirectional video camera. To achieve robust talker direction estimation, audio feature vector is extracted using omnidirectional weighted cross-power spectrum phase (CSP) analysis and CSP coefficient subtraction, and visual feature vector is extracted using normalized distance-based background subtraction and skin color detection medthod in T-S color plane. The talker direction is finally estimated by weighted fusion of audio-visual feature vector based on the reliable criterion of audio feature vector. The results of talker direction estimation experiments in an actual office room revealed that the proposed multimodal talker direction estimation method improved false rejection rate and false acceptance rate than the conventional methods that use audio or visual feature vector, but not both.
キーワード(和) 全方位話者方位推定 / マルチモーダル話者方位推定 / 特徴量統合 / DOA推定 / 人物検出
キーワード(英) Omnidirectional talker direction estimation / multimodal talker direction estimation / feature vector fusion / DOA estimation / Human detection
資料番号 TL2006-52,SP2006-140,WIT2006-84
発行日

研究会情報
研究会 WIT
開催期間 2007/1/18(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
サブタイトル(和)
タイトル(英) A Study of Omnidirectional Multimodal Estimation for Talker Direction with Equilateral Triangular Microphone Array and Omnidirectional Video Camera
サブタイトル(和)
キーワード(1)(和/英) 全方位話者方位推定 / Omnidirectional talker direction estimation
キーワード(2)(和/英) マルチモーダル話者方位推定 / multimodal talker direction estimation
キーワード(3)(和/英) 特徴量統合 / feature vector fusion
キーワード(4)(和/英) DOA推定 / DOA estimation
キーワード(5)(和/英) 人物検出 / Human detection
第 1 著者 氏名(和/英) 博田 遊亀 / Yuki DENDA
第 1 著者 所属(和/英) 立命館大学大学院 理工学研究科
Graduate School of Science and Engineering, Ritsumeikan University
第 2 著者 氏名(和/英) 西浦 敬信 / Takanobu NISHIURA
第 2 著者 所属(和/英) 立命館大学 情報理工学部
College of Information Science and Engineering, Ritsumeikan University
第 3 著者 氏名(和/英) 山下 洋一 / Yoichi YAMASHITA
第 3 著者 所属(和/英) 立命館大学 情報理工学部
College of Information Science and Engineering, Ritsumeikan University
発表年月日 2007/1/18
資料番号 TL2006-52,SP2006-140,WIT2006-84
巻番号(vol) vol.106
号番号(no) 489
ページ範囲 pp.-
ページ数 6
発行日