講演名 2004/5/21
映像付き雑音環境下音声認識評価用共通データベースAURORA-2J-AV/AURORA-3J-AVの構築(福祉・医療のためのパターン認識・メディア理解)
根木 大輔, 前野 俊希, 北坂 孝幸, 森 健策, 末永 康仁, 宮島 千代美, 伊藤 克亘, 武田 一哉, 板倉 文忠, 佐野 正己, 二宮 芳樹,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 近年,現実の雑音環境下の様々なシーンにおいて音声認識率を向上させるために,音声情報に加え映像情報を用いるバイモーダル音声認識の研究が行われている.映像情報は音響雑音の影響を受けない情報源として,音声認識において重要な役割を果たすものと考えられる.しかし,大規模バイモーダルデータベースが少ないことなどから,映像情報は実際の音声認識システムにおいて十分に利用されるには至っていない.そこで,これまでに構築されている雑音環境下音声認識評価用共通データベースAURORA-2J/AURORA-3Jの仕様に則り,高品質カラー映像と近赤外映像を付加して収録を行い,新しいデータベースAURORA-2J-AV(室内),AURORA-3J-AV(自動車内)を構築した.このデータベースは室内で収録されたデータと市街地走行中の自動車内で収録されたデータを含む.また,バイモーダルデータベースを容易に取り扱うことができるソフトウェアフレームワークを開発しており,データベースと同時に広く配布する予定である.
抄録(英) Researchers are having more attentions on automatic speech recognition under noisy environment using audio and video information together to improve recognition rates. Visual information may play a very important role in speech recognition since it is never affected by acoustic noises. However, it has not been fully used in existing actual speech recognition systems because there have been only a few large-scale bimodal databases. According to the specification of our common database named "AURORA-2J/AURORA-3J" for evaluating speech recognition method under noisy environments, we have built a new database "AURORA-2J-AV(indoor)/AURORA-3J-AV(in-vehicle)" by acquiring high quality color and near-infrared facial images in synchronization with aural signals. These databases contain "indoor" audiovisual data taken in a quiet room and "in-vehicle" audiovisual data acquired in a minivan while driving down the noisy streets. Since we plan to distribute the databases widely among researchers, we have been developing a new software framework to handle the databases quite easily.
キーワード(和) バイモーダル音声認識 / マルチメディアデータベース / AURORA
キーワード(英) Audiovisual automatic speech recognition / Multimedia database / AURORA
資料番号 PRMU2004-24,MI2004-24,WIT2004-24
発行日

研究会情報
研究会 WIT
開催期間 2004/5/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) 映像付き雑音環境下音声認識評価用共通データベースAURORA-2J-AV/AURORA-3J-AVの構築(福祉・医療のためのパターン認識・メディア理解)
サブタイトル(和)
タイトル(英) Construction of Common Database "AURORA-2 J-AV/AURORA-3J-AV" for Evaluating Speech Recognition Method Under Noisy Environments
サブタイトル(和)
キーワード(1)(和/英) バイモーダル音声認識 / Audiovisual automatic speech recognition
キーワード(2)(和/英) マルチメディアデータベース / Multimedia database
キーワード(3)(和/英) AURORA / AURORA
第 1 著者 氏名(和/英) 根木 大輔 / Daisuke NEGI
第 1 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 2 著者 氏名(和/英) 前野 俊希 / Toshiki MAENO
第 2 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 3 著者 氏名(和/英) 北坂 孝幸 / Takayuki KITASAKA
第 3 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 4 著者 氏名(和/英) 森 健策 / Kensaku MORI
第 4 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 5 著者 氏名(和/英) 末永 康仁 / Yasuhito SUENAGA
第 5 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 6 著者 氏名(和/英) 宮島 千代美 / Chiyomi MIYAJIMA
第 6 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 7 著者 氏名(和/英) 伊藤 克亘 / Katsunobu ITOU
第 7 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 8 著者 氏名(和/英) 武田 一哉 / Kazuya TAKEDA
第 8 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 9 著者 氏名(和/英) 板倉 文忠 / Fumitada ITAKURA
第 9 著者 所属(和/英) 名古屋大学院情報科学研究科
Graduate School of Information Science, Nagoya University
第 10 著者 氏名(和/英) 佐野 正己 / Yoshiki SANO
第 10 著者 所属(和/英) 名古屋商科大学経営情報学部
Graduate School of Engineering, Nagoya University
第 11 著者 氏名(和/英) 二宮 芳樹 / Yoshiki NINOMIYA
第 11 著者 所属(和/英) (株)豊田中央研究所
Faculty of Management Information Science, Nagoya University of Commerce & Business
発表年月日 2004/5/21
資料番号 PRMU2004-24,MI2004-24,WIT2004-24
巻番号(vol) vol.104
号番号(no) 93
ページ範囲 pp.-
ページ数 6
発行日