講演名 2009-09-11
発話理解における視覚情報の役割(五感メディア,映像/音声サービスの品質,ネットワークの品質・QoS制御,次世代ネットワークアーキテクチャ,仮想空間におけるユーザコミュニケーション,一般)
伊東 和廣, 望月 要, 大西 仁, 中村 直人,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 人間は音声言語を使ってコミュニケーションする場合でも,相手の表情から様々な情報を読み取り,それによって音声情報を補うことでコミュニケーションを円滑にしている.特に音声の補完を行う場合には,話者の口唇の動きから聴覚だけで聞き取れなかった情報を補っていると考えられる.本稿は,発話内容の聞き取りにおける,発話者の顔面の視覚情報の役割を実験的に検証したものである.実験では,短文を発話する映像を用いて,「音声のみ」を聞いた場合と「音声+顔映像」を提示した場合とで音声聞き取りの正確さの比較を行った.この時,音量の異なるノイズを音声に重ね合わせることで,聞き取りの難易度と,顔映像の聞き取り貢献の関係を探った.同時に,被験者の視線の動きをアイマークレコーダで計測し,視線の動きと音声補完との関係を調べた.その結果,ノイズを付加しない場合には,顔映像を提示しても音声の聞き取り率は向上せず,被験者は発話者の目元を注視する傾向が認められたのに対し,ノイズがある場合には,顔映像を提示することで音声の聞き取り率が向上し,被験者は発話者の口元を注視することが多いことが明らかになった.このことは,音声言語を主体とするコミュニケーションにおいても,音声情報が劣化した場合には,視覚情報を利用して音声を補完していることを示している.
抄録(英) When we talk with somebody, not only the voice of speaker but also his or her facial expressions play an important role in mutual understanding. This report examined the contribution of visual information of speaker's face to speech cognition. In our experiment, participants were presented two types of materials: (1) voice only, (2) motion picture of speaker with voice and face under four different levels of background noise conditions and were asked to repeat precisely what speaker said. The results showed that accuracy of repeat was same or higher in the voice only material than motion picture when materials were presented without noise. But when the noise added, accuracy was higher in motion picture. The analysis of gaze tracking data showed that participants tended to look at speaker's eyes when the motion picture presented without noise, but they looked at speaker's mouth when noise added. These results clearly show the contribution of the visual information of speaker's face to speech cognition.
キーワード(和) 視聴覚統合 / 発話理解 / 視線計測
キーワード(英) Audio-visual integration / Speech recognition / Gaze tracking
資料番号 CQ2009-34
発行日

研究会情報
研究会 CQ
開催期間 2009/9/3(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Communication Quality (CQ)
本文の言語 JPN
タイトル(和) 発話理解における視覚情報の役割(五感メディア,映像/音声サービスの品質,ネットワークの品質・QoS制御,次世代ネットワークアーキテクチャ,仮想空間におけるユーザコミュニケーション,一般)
サブタイトル(和)
タイトル(英) Contribution of Visual Information to Speech Cognition
サブタイトル(和)
キーワード(1)(和/英) 視聴覚統合 / Audio-visual integration
キーワード(2)(和/英) 発話理解 / Speech recognition
キーワード(3)(和/英) 視線計測 / Gaze tracking
第 1 著者 氏名(和/英) 伊東 和廣 / Kazuhiro ITO
第 1 著者 所属(和/英) 千葉工業大学大学院情報科学研究科
Chiba Institute of Technology
第 2 著者 氏名(和/英) 望月 要 / Kaname MOCHIZUKI
第 2 著者 所属(和/英) 帝京大学
Teikyo University
第 3 著者 氏名(和/英) 大西 仁 / Hitoshi OHNISHI
第 3 著者 所属(和/英) 放送大学
The Open University of Japan
第 4 著者 氏名(和/英) 中村 直人 / Naoto NAKAMURA
第 4 著者 所属(和/英) 千葉工業大学大学院情報科学研究科
Chiba Institute of Technology
発表年月日 2009-09-11
資料番号 CQ2009-34
巻番号(vol) vol.109
号番号(no) 191
ページ範囲 pp.-
ページ数 4
発行日