講演名 2006-03-22
全周方向での音源位置推定および肌色情報との統合による話者位置推定への適用(メディア処理・コンテンツ生成,ヒューマンコミュニケーショングループ(HCG)シンポジウム)
高橋 哲史, 今井 順一, 金子 正秀,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) ロボットがユーザとコミュニケーションをとるためには,まずユーザがどこにいるかを知る必要がある.この際,ユーザが常にロボットの正面にいるとは限らず,ロボットの後ろから声をかけられることも考えられる.そこで本論文では,全周方向での話者位置推定手法について述べる.まず,多チャネルのマイクロホンを用いて,音源からマイクロホンまでの音の到来時間差を利用して音源位置推定を行う.全周方向での3次元位置推定を行う際の推定精度と処理時間の観点から,最適なマイクロホン数と配置方法を導いた.次に,音源が話者であることを利用して音源位置推定の精度の向上を図る.様々な人種の肌色に適用できる色相,彩度に関するGMM(ガウス混合モデル)に対し,個別のシーンに適したGMMを学習により求め,シーン中の人物の肌色領域を安定して抽出できるようにした.音源位置推定結果と肌色尤度をベイジアン・ネットワークを用いて統合することにより,高精度の話者位置推定法を実現した.実験により,本手法により全周方向での話者位置推定を効果的に行えることを確認した.
抄録(英) A user doesn't always stand in front of a robot and may sometimes call a robot from its back. Therefore a robot should know the user's position first to start communication with him/her. This paper proposes the omni-directional estimation method of speaker's position using the combination of audio and color information. Estimation of the position of sound source is carried out to calculate the difference of arrival time from the sound source to multi-channel microphones. Number of microphones and their optimal arrangement are derived considering the accuracy and processing time for 3-D estimation of sound source position. Next the robust detection of skin-color region is carried out by combining a trained GMM (Gaussian Mixture Model) for input scene with a general GMM. Bayesian network is employed to combine the result of sound source estimation and detection of skin-color region, and to realize a highly accurate estimation of speaker's location. Experimental results are shown to demonstrate the usefulness of the proposed methods.
キーワード(和) 音源位置推定 / 全周方向 / 話者位置 / 肌色情報 / CSP法 / ガウス混合分布
キーワード(英) estimation of sound source location / omni-direction / speaker's location / skin-color information / CSP method / Gaussian mixture model
資料番号 MVE2005-70
発行日

研究会情報
研究会 MVE
開催期間 2006/3/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Media Experience and Virtual Environment (MVE)
本文の言語 JPN
タイトル(和) 全周方向での音源位置推定および肌色情報との統合による話者位置推定への適用(メディア処理・コンテンツ生成,ヒューマンコミュニケーショングループ(HCG)シンポジウム)
サブタイトル(和)
タイトル(英) Omni-directional Estimation of Sound Source Location and Its Application to Estimation of Speaker's Position by Combining with Skin-color Information
サブタイトル(和)
キーワード(1)(和/英) 音源位置推定 / estimation of sound source location
キーワード(2)(和/英) 全周方向 / omni-direction
キーワード(3)(和/英) 話者位置 / speaker's location
キーワード(4)(和/英) 肌色情報 / skin-color information
キーワード(5)(和/英) CSP法 / CSP method
キーワード(6)(和/英) ガウス混合分布 / Gaussian mixture model
第 1 著者 氏名(和/英) 高橋 哲史 / Satoshi TAKAHASHI
第 1 著者 所属(和/英) 電気通信大学 大学院電気通信学研究科
Graduate School of Electro-Communications, The University of Eletro-Communications
第 2 著者 氏名(和/英) 今井 順一 / Jun-ichi IMAI
第 2 著者 所属(和/英) 電気通信大学 大学院電気通信学研究科
Graduate School of Electro-Communications, The University of Eletro-Communications
第 3 著者 氏名(和/英) 金子 正秀 / Masahide KANEKO
第 3 著者 所属(和/英) 電気通信大学 大学院電気通信学研究科
Graduate School of Electro-Communications, The University of Eletro-Communications
発表年月日 2006-03-22
資料番号 MVE2005-70
巻番号(vol) vol.105
号番号(no) 683
ページ範囲 pp.-
ページ数 6
発行日