講演名 2000/6/15
SP2000-10 多数話者電話音声データベースを用いた話者クラスタリング
加藤 恒夫, 黒岩 眞吾, 清水 徹, 樋口 宜男,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 話者クラスタリングは音響的に近い話者集合を作成する方法であり, 話者集合毎に音響モデルを学習することで特定の話者集合にチューニングされたモデルが得られる.従来の報告では少ない話者数(数十名から数百名)の音声を学習データとして用いているが, 多数話者の音声を学習データに用いれば, 1話者クラスタあたりのデータ量が増加しモデルパラメータの推定精度が向上すること, 任意の話者に近い話者集合の音響モデルを認識に利用できることにより認識性能の改善が期待できる.本稿では, 1, 000名規模の電話音声データベースを用いで話者クラスタリングを行い, 学習データの話者数の増加に伴い認識率が上昇することを確認した.また, 話者集合の作成が理想的に行われた場合の認識率を求めることを目的として, 従来の尤度に基づく方法に替えて, 認識対象の話者に対して高い認識率を与える話者のデータからモデルを学習したところ, 不特定話者モデルと特定話者モデルの性能差の約60%を改善可能であることがわかった.
抄録(英) Speaker clustering is a method that creates groups of speakers with similar acoustic characteristics, and acoustic models tuned to specific groups of speakers are available. Previous researches made on small numbers of training speakers have shown that the recognition accuracy of the speaker-cluster models is not enough. In this paper, a telephone speech database of over a thousand speakers is used for speaker clustering. As a larger number of speakers'data are available, the sparse data problems of both the speakers and the amount of data for each speaker-cluster model are expected to diminish. Experimental results showed the increase of training speakers is very effective for improving phoneme accuracy. Furthermore we estimated the maximal phoneme accuracy possibly obtained with given data. Results showed sixty percent of the difference between phoneme accuracy of speaker-independent and speaker-dependent models may by improved.
キーワード(和) 音声認識 / 電話音声 / 音響モデル / 話者適応 / クラスタリング
キーワード(英) speech recognition / telephone speech / acoustic modeling / speaker adaptation / clustering
資料番号 SP2000-10
発行日

研究会情報
研究会 SP
開催期間 2000/6/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) SP2000-10 多数話者電話音声データベースを用いた話者クラスタリング
サブタイトル(和)
タイトル(英) SP2000-10 Speaker Clustering using Telephone Speech Database of a Large Number of Speakers
サブタイトル(和)
キーワード(1)(和/英) 音声認識 / speech recognition
キーワード(2)(和/英) 電話音声 / telephone speech
キーワード(3)(和/英) 音響モデル / acoustic modeling
キーワード(4)(和/英) 話者適応 / speaker adaptation
キーワード(5)(和/英) クラスタリング / clustering
第 1 著者 氏名(和/英) 加藤 恒夫 / Tsuneo Kato
第 1 著者 所属(和/英) KDD研究所
KDD R&D Laboratories Inc.
第 2 著者 氏名(和/英) 黒岩 眞吾 / Shingo Kuroiwa
第 2 著者 所属(和/英) KDD研究所
KDD R&D Laboratories Inc.
第 3 著者 氏名(和/英) 清水 徹 / Tohru Shimizu
第 3 著者 所属(和/英) KDD研究所
KDD R&D Laboratories Inc.
第 4 著者 氏名(和/英) 樋口 宜男 / Norio Higuchi
第 4 著者 所属(和/英) KDD研究所
KDD R&D Laboratories Inc.
発表年月日 2000/6/15
資料番号 SP2000-10
巻番号(vol) vol.100
号番号(no) 136
ページ範囲 pp.-
ページ数 8
発行日