講演抄録/キーワード |
講演名 |
2008-07-18 14:45
音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別 ○荒木章子・藤本雅清・石塚健太郎・中谷智広・澤田 宏・牧野昭二(NTT) EA2008-40 |
抄録 |
(和) |
我々は、会議状況において「いつ誰が話したか」を推定する方法を検討している。これは、音声区間検出器(VAD)で推定した音声存在確率と、音声区間における音声到来方向(DOA)の分類結果とを用いて、会議音声中の各話者の音声区間を推定するものである。これを本稿では話者識別と呼ぶ。本稿では、この性能向上を目的とし、2つの方法を提案する。提案1として、DOAを各時間周波数スロットで推定することで、特に複数人同時発話時の話者識別精度を向上させる。提案2として、VAD結果およびDOA情報を確率的に統合する方法を検討する。両提案法により、実際の会話音声データに対して、話者識別性能の向上が見られたので報告する。 |
(英) |
This paper presents a meeting diarization system that estimates who spoke when in a meeting. Our proposed system is realized by using a noise robust voice activity detector (VAD), a direction of arrival (DOA) estimator, and a DOA classifier. This paper proposes two methods for improving diarization performance. As the first proposal, we employ a DOA at each time-frequency slot (TFDOA) so that multiple DOAs can be estimated at a frame when multiple speakers speak simultaneously. The second proposal is to integrate VAD and DOA in a probabilistic way. This paper reports how such proposals improve diarization performance for real meetings / conversations. |
キーワード |
(和) |
話者識別(ダイアライゼーション) / 音声区間検出 / 到来方向 / / / / / |
(英) |
diarization / voice activity detector / direction of arrival / / / / / |
文献情報 |
信学技報, vol. 108, no. 143, EA2008-40, pp. 19-24, 2008年7月. |
資料番号 |
EA2008-40 |
発行日 |
2008-07-11 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2008-40 |