講演名 1998/11/20
識別関数を用いたMPEGオーディオ情報の自動分類
陸 洋, 中島 康之, 米山 暁夫, 柳原 広昌, 菅野 勝, 榑松 明,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) キーワードスポッティングやコンテンツベースオーディオビジュアル検索システムにおいてオーディオ情報の自動分類が非常に重要な課題になる。本稿では、MPEG符号化データから自動的にオーディオ情報を高速かつ高い精度で分類する手法を提案する。まず各種の録音状況に依存しない無音区間について述べる。次に、有音区間を音楽、音声そして歓声雑音3種類のクラスに分けて、MPEGオーディオのサブバンドデータに基づいた時間的エネルギーの疎密度、平均サブバンド数とサブバンド重心によって分類を行なう。さまざまな種類のオーディオソースに対応するために、本稿では閾値処理の代わりにBayes決定における正規分布に対する最適識別関数を用いた。分類実験では、MPEGオーディオデータが1秒単位で分類され、95%以上の無音と音声区間を正確に検出できた。また検出に必要な処理時間はMPEGオーディオ復号の処理時間の20%以下で検出が可能になった。
抄録(英) Audio information classification becomes a very important task for such purposes as automatic keyword spotting and other content-based audio-visual system. In this paper, we describe a fast and accurate audio data classification method on MPEG coded data domain. Firstly silent segments are detected using a robust approach for different recording conditions. Then the nonsilent segments are classified into three types, music, speech, and applause using temporal density, bandwidth and center frequency of subband energy. In order to be robust for a variety of audio sources as much as possible, we use Bayes discriminant function for multivariate Gaussian distribution instead of manually adjusting a threshold for each discriminator. In the experiment, every one-second MPEG audio data is classified and over 95% of silent and speech segments have been successfully detected. As for the detection speed, less than 20% of MPEG audio decoding processing power is required.
キーワード(和) オーディオ検索 / MPEG符号化 / コンテントベース検索 / オーディオ分類 / サブバンド
キーワード(英) Audio indexing / MPEG coding / content-based query / audio classification / subband
資料番号 SP98-91
発行日

研究会情報
研究会 SP
開催期間 1998/11/20(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 識別関数を用いたMPEGオーディオ情報の自動分類
サブタイトル(和)
タイトル(英) Automatic Information Classification of MPEG Audio using Discriminant Function
サブタイトル(和)
キーワード(1)(和/英) オーディオ検索 / Audio indexing
キーワード(2)(和/英) MPEG符号化 / MPEG coding
キーワード(3)(和/英) コンテントベース検索 / content-based query
キーワード(4)(和/英) オーディオ分類 / audio classification
キーワード(5)(和/英) サブバンド / subband
第 1 著者 氏名(和/英) 陸 洋 / Yang Lu
第 1 著者 所属(和/英) 電気通信大学
University of Electro Communications
第 2 著者 氏名(和/英) 中島 康之 / Yasuyuki Nakajima
第 2 著者 所属(和/英) KDD研究所
KDD R&D Laboratories
第 3 著者 氏名(和/英) 米山 暁夫 / Akio Yoneyama
第 3 著者 所属(和/英) KDD研究所
KDD R&D Laboratories
第 4 著者 氏名(和/英) 柳原 広昌 / Hiromasa Yanagihara
第 4 著者 所属(和/英) KDD研究所
KDD R&D Laboratories
第 5 著者 氏名(和/英) 菅野 勝 / Masaru Sugano
第 5 著者 所属(和/英) KDD研究所
KDD R&D Laboratories
第 6 著者 氏名(和/英) 榑松 明 / Akira Kurematsu
第 6 著者 所属(和/英) 電気通信大学
University of Electro Communications
発表年月日 1998/11/20
資料番号 SP98-91
巻番号(vol) vol.98
号番号(no) 424
ページ範囲 pp.-
ページ数 6
発行日