講演名 2000/12/14
口周囲画像による頑強な発話検出
村井 和昌, 野間 啓介, 熊谷 建一, 松井 知子, 中村 哲,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音信号や画像信号による発話認識において, 発話区間検出精度は認識率に大きな影響を与える.特に, 騒音下では音声が騒音に埋もれてしまい, 音信号のみを用いて発話区間を正確に検出することは難しい.本稿では, 発話検出の一手法として, 騒音に影響されることなく発話区間を検出することが可能な発話者の顔画像から発話区間を検出する方法を提案する.本方法では、まず、色情報から肌色領域を検出し、発話器官を含む領域を推定する.次に、この領域の画像の変形測度から発話を検出している.評価実験により、本方法は画像ノイズに対しても頑強であることが確認された.音信号(SNR25dB)のみによる発話区間検出では97.5%の検出率であったのに対し、本方式では画像ノイズの有無に関わらず99.8%であった.
抄録(英) In this paper, we propose a method to detect the end points of speaking sections (EPD : End Point Detection) by visual information. It is well known that the accuracy of EPD affects speech recognition accuracy. Detecting the speech end points from a noisy audio signal is difficult because the speech is masked by the audio noise. We propose a method for EPD that uses image of the speaker's facial motion that are not affected by audio noise. Our method locates the skin area by color information and estimates the area that includes the speech organs. Then the end points are detected by the speed at which the image alternates. An evaluation experiment also confirms that the proposed method is robust with respect to visual noise. Its accuracy with/without visual noise is 99.8% while audio (SNR 25dB) EPD is 97.5%.
キーワード(和) 音声認識 / 発話区間 / 顔画像 / 肌色 / 発話検出
キーワード(英) Speech Recognition / Speaking Section / Facial Image / Skin Color / End Point Detection
資料番号 NLC2000-39,SP2000-87
発行日

研究会情報
研究会 NLC
開催期間 2000/12/14(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Natural Language Understanding and Models of Communication (NLC)
本文の言語 JPN
タイトル(和) 口周囲画像による頑強な発話検出
サブタイトル(和)
タイトル(英) A Robust End Point Detection by Speaker's Facial Image
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / Speech Recognition
キーワード(2)(和/英) 発話区間 / Speaking Section
キーワード(3)(和/英) 顔画像 / Facial Image
キーワード(4)(和/英) 肌色 / Skin Color
キーワード(5)(和/英) 発話検出 / End Point Detection
第 1 著者 氏名(和/英) 村井 和昌 / Kazumasa MURAI
第 1 著者 所属(和/英) ATR音声言語通信研究所
ATR Spoken Language Translation Research Laboratories : Graduate School of Information Science, Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 野間 啓介 / Keisuke NOMA
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Graduate School of Information Science, Nara Institute of Science and Technology
第 3 著者 氏名(和/英) 熊谷 建一 / Kenichi KUMATANI
第 3 著者 所属(和/英) ATR音声言語通信研究所 : 奈良先端科学技術大学院大学情報科学研究科
ATR Spoken Language Translation Research Laboratories : Graduate School of Information Science, Nara Institute of Science and Technology
第 4 著者 氏名(和/英) 松井 知子 / Tomoko MATSUI
第 4 著者 所属(和/英) ATR音声言語通信研究所
ATR Spoken Language Translation Research Laboratories
第 5 著者 氏名(和/英) 中村 哲 / Satoshi NAKAMURA
第 5 著者 所属(和/英) ATR音声言語通信研究所
ATR Spoken Language Translation Research Laboratories
発表年月日 2000/12/14
資料番号 NLC2000-39,SP2000-87
巻番号(vol) vol.100
号番号(no) 520
ページ範囲 pp.-
ページ数 6
発行日