講演名 | 2008-07-18 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般) 荒木 章子, 藤本 雅清, 石塚 健太郎, 中谷 智広, 澤田 宏, 牧野 昭二, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 我々は、会議状況において「いつ誰が話したか」を推定する方法を検討している。これは、音声区間検出器(VAD)で推定した音声存在確率と、音声区間における音声到来方向(DOA)の分類結果とを用いて、会議音声中の各話者の音声区間を推定するものである。これを本稿では話者識別と呼ぶ。本稿では、この性能向上を目的とし、2つの方法を提案する。提案1として、DOAを各時間周波数スロットで推定することで、特に複数人同時発話時の話者識別精度を向上させる。提案2として、VAD結果およびDOA情報を確率的に統合する方法を検討する。両提案法により、実際の会話音声データに対して、話者識別性能の向上が見られたので報告する。 |
抄録(英) | This paper presents a meeting diarization system that estimates who spoke when in a meeting. Our proposed system is realized by using a noise robust voice activity detector (VAD), a direction of arrival (DOA) estimator, and a DOA classifier. This paper proposes two methods for improving diarization performance. As the first proposal, we employ a DOA at each time-frequency slot (TFDOA) so that multiple DOAs can be estimated at a frame when multiple speakers speak simultaneously. The second proposal is to integrate VAD and DOA in a probabilistic way. This paper reports how such proposals improve diarization performance for real meetings/conversations. |
キーワード(和) | 話者識別(ダイアライゼーション) / 音声区間検出 / 到来方向 |
キーワード(英) | diarization / voice activity detector / direction of arrival |
資料番号 | EA2008-40 |
発行日 |
研究会情報 | |
研究会 | EA |
---|---|
開催期間 | 2008/7/11(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Engineering Acoustics (EA) |
---|---|
本文の言語 | JPN |
タイトル(和) | 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般) |
サブタイトル(和) | |
タイトル(英) | Speaker diarization for meetings by integrating speech presence probability estimation and time-frequency domain direction of arrival estimation |
サブタイトル(和) | |
キーワード(1)(和/英) | 話者識別(ダイアライゼーション) / diarization |
キーワード(2)(和/英) | 音声区間検出 / voice activity detector |
キーワード(3)(和/英) | 到来方向 / direction of arrival |
第 1 著者 氏名(和/英) | 荒木 章子 / Shoko ARAKI |
第 1 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 2 著者 氏名(和/英) | 藤本 雅清 / Masakiyo FUJIMOTO |
第 2 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 3 著者 氏名(和/英) | 石塚 健太郎 / Kentaro ISHIZUKA |
第 3 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 4 著者 氏名(和/英) | 中谷 智広 / Tomohiro NAKATANI |
第 4 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 5 著者 氏名(和/英) | 澤田 宏 / Hiroshi SAWADA |
第 5 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
第 6 著者 氏名(和/英) | 牧野 昭二 / Shoji MAKINO |
第 6 著者 所属(和/英) | 日本電信電話株式会社NTTコミュニケーション科学基礎研究所 NTT Communication Science Laboratories, NTT Corporation |
発表年月日 | 2008-07-18 |
資料番号 | EA2008-40 |
巻番号(vol) | vol.108 |
号番号(no) | 143 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |