講演名 2003/10/24
BICに基づく話者モデル選択の教師なし話者インデキシングにおける評価(福祉と音声処理及び一般)
西田 昌史, 河原 達也,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では,これまでに提案したBICに基づき統計的に最適な話者モデル(VQまたはGMM)を選択する方式を用いて,討論音声を対象とした教師なし話者インできシングにおける評価を行う.本方式では,話者数が未知な条件でインデキシングを行うため,閾値を事前に設定する必要があった.そこで,閾値の変化に対するインデキシング精度の変動について評価を行い,さらに閾値を設定する代わりに話者数を与えた場合におけるインデキシングについても検討を行う.従来法と比較した結果,本方式において比較的頑健に閾値を設定することができ,話者数が既知・未知の場合のどちらでも高いインデキシング精度が得られた.また,本手法により得られたインデキシング結果を用いて音響モデルを話者適応することにより,音声認識精度を改善することができた.
抄録(英) This paper addresses unsupervised speaker indexing for discussion audio archives. We have performed the speaker indexing using our proposed framework that selects an optimal speaker model (GMM or VQ) based on the BIC. A threshold of the speaker indexing is needed to be determined in advance because the framework is applied to the speaker indexing in the case where the number of speakers is unknown beforehand. Thus, we evaluate robustness of indexing accuracy when varying the threshold and the indexing accuracy when the number of speakers instead of the threshold is given. As a result of comparison with conventional methods, it is demonstrated that the proposed framework can set up the threshold robustly and archives the higher indexing accuracy in both cases where the number of speakers is unknown or given beforehand. The speaker index is useful for speaker adaptation of the acoustic model, which improves the performance of automatic speech recognition.
キーワード(和) 話者モデル選択 / BIC / 教師なし話者インデキシング / 話者認識 / 音声認識 / 討論音声
キーワード(英) Speaker model selection / Bayesian information criterion / Unsupervised speaker indexing / Speaker recognition / Speech recognition / Discussions
資料番号 SP2003-103,WIT2003-15
発行日

研究会情報
研究会 WIT
開催期間 2003/10/24(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Well-being Information Technology(WIT)
本文の言語 JPN
タイトル(和) BICに基づく話者モデル選択の教師なし話者インデキシングにおける評価(福祉と音声処理及び一般)
サブタイトル(和)
タイトル(英) Evaluation of Speaker Model Selection based on Bayesian Information Criterion in Unsupervised Speaker Indexing
サブタイトル(和)
キーワード(1)(和/英) 話者モデル選択 / Speaker model selection
キーワード(2)(和/英) BIC / Bayesian information criterion
キーワード(3)(和/英) 教師なし話者インデキシング / Unsupervised speaker indexing
キーワード(4)(和/英) 話者認識 / Speaker recognition
キーワード(5)(和/英) 音声認識 / Speech recognition
キーワード(6)(和/英) 討論音声 / Discussions
第 1 著者 氏名(和/英) 西田 昌史 / Masafumi NISHIDA
第 1 著者 所属(和/英) 千葉大学自然科学研究科
Graduate School of Science ant Technology, Chiba University
第 2 著者 氏名(和/英) 河原 達也 / Tatsuya KAWAHARA
第 2 著者 所属(和/英) 京都大学学術情報メディアセンター:科学技術振興事業団さきがけ研究21
School of Informatics, Kyoto University:PRESTO, Japan Science and Technology Corporation (JST)
発表年月日 2003/10/24
資料番号 SP2003-103,WIT2003-15
巻番号(vol) vol.103
号番号(no) 402
ページ範囲 pp.-
ページ数 6
発行日