講演名 2004/12/14
鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 子供音声は自由な発話形式のものが多く,既存の読み上げ音声コーパスでは対応が難しい.また一般に子供音声の収録には多大な労力やコストがかかるため,整った音声コーパスを作成することや難しい.本研究では,音声情報案内システムにおいて自動収集した子供の音声に基づく音響モデルの作成および認識性能の評価を行った.また,自動収集した子供音声に対する自動話者クラスタリングを提案し,それを用いた十分統計量に基づく教師なし話者適応を行った.収集した子供音声から作成した音響モデルにより,年齢層ごとに幼児53.6%,低学年子供82.1%,高学年子供77.6%の認識性能が得られ,既存のモデルに比べ大幅に認識性能の改善が得られた.また提案した自動話者クラスタリングとそれを用いた十分統計量に基づく教師なし話者適応の結果,子供用不特定話者モデルに対して一定の認識性能の改善が得られ,年齢層ごとのMAP適応モデルよりも高い認識性能が得られたことを示す.
抄録(英) Acoustic modeling in current speech recognition system requires a large amount of speech database that are correctly uttered and transcribed. However, this methodology can not be easily applicable for the recognition of child speech. Children's utterances are usually not well-articulated, spontaneous. Controlling them to read sentences precisely for collection of database is difficult, and also the resulting utterances may be far from spontaneous speech. In this research, we evaluate the acoustic models and adaptation methods for child speech recognition based on a natural child speech database automatically collected through actual spoken dialogue system " Takemaru-kun". Also we propose a speaker clustering method to perform unsupervised speaker adaptation based on HMM Sufficient Statistics (HMM-SS) on automatically collected database where no user tag is available. The acoustic HMM trained by 59,966 spontaneous child speech achieved the word accuracy of 53.6% for the infants (pre-school children), 82.1% for elementary schoolers, 77.6% for junior-high schoolers, which substantially outperforms an adult female model and a child model trained by read speech. Furthermore, experiment of the proposed speaker adaptation method based on automatic speaker clustering and HMM-SS resulted in a slight improvement of recognition accuracy, that was better than age-class dependent MAP adaptation.
キーワード(和) 子供音声 / 音響モデル / 十分統計量に基づく教師なし話者適応 / 自動話者クラスタリング
キーワード(英) Children speech / Acoustic model / Speaker adaptation / HMM Safficient Statistics / Automatic speaker clustering
資料番号 NLC2004-74,SP2004-114

研究会 SP
開催期間 2004/12/14(から1日開催)

申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 子供音声認識のための音響モデルの構築および適応手法の評価(ポスターセッション)(第6回音声言語シンポジウム)
タイトル(英) Evaluation of Acoustic Models and Adaptation Methods Based on Collection of Spontaneous Speech for Child Speech Recognition
キーワード(1)(和/英) 子供音声 / Children speech
キーワード(2)(和/英) 音響モデル / Acoustic model
キーワード(3)(和/英) 十分統計量に基づく教師なし話者適応 / Speaker adaptation
キーワード(4)(和/英) 自動話者クラスタリング / HMM Safficient Statistics
第 1 著者 氏名(和/英) 鮫島 充 / Mitsuru SAMEJIMA
第 1 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Nara Institute of Science and Technology
第 2 著者 氏名(和/英) 李 晃伸 / Akinobu LEE
第 2 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Nara Institute of Science and Technology
第 3 著者 氏名(和/英) 猿渡 洋 / Hiroshi SARUWATARI
第 3 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Nara Institute of Science and Technology
第 4 著者 氏名(和/英) 鹿野 清宏 / Kiyohiro SHIKANO
第 4 著者 所属(和/英) 奈良先端科学技術大学院大学情報科学研究科
Nara Institute of Science and Technology
発表年月日 2004/12/14
資料番号 NLC2004-74,SP2004-114
巻番号(vol) vol.104
号番号(no) 542
ページ範囲 pp.-
ページ数 6