SP2000-11 話者クラス音響モデルのための学習データの自動選択手法

佐藤 庄衛; 世木 寛之; 尾上 和穂; 今井 亨; 田中 秀樹; 安藤 彰男

講演名	2000/6/15 SP2000-11 話者クラス音響モデルのための学習データの自動選択手法佐藤庄衛, 世木寛之, 尾上和穂, 今井亨, 田中秀樹, 安藤彰男,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.
抄録(英)	This paper proposes a method of constructing acoustic models for automatic news subtitling. In this method, two-stage clustering is used for an adaptation-data selection from a large-scale database. The first stage generates GMMs from a small amount of data and second atage clusters a large-scale database by the GMMs. A broadcast news transcription experiment showed that the proposed method reduced in toth a word error rate and processing time. The best result in the experiment showed 33% WER reduction and 25% decoding time reduction compared with the baseline method, which had no clustering. Furthermore, we found that it takes just 0.4 seconds from the beginning of an input utterance to select an HMM correctly. The result showed 18% processing time reduction in total compared with the baseline method.
キーワード(和)	ニュース音声 / 音声認識 / 音響モデル / 音声データベース / HMM / クラスタリング / GMM
キーワード(英)	Broadcast news / subtitling / speech recognition / acoustic model / HMM / clustering / GMM
資料番号	SP2000-11
発行日

研究会情報
研究会	SP
開催期間	2000/6/15(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Speech (SP)
本文の言語	JPN
タイトル（和）	SP2000-11 話者クラス音響モデルのための学習データの自動選択手法
サブタイトル（和）
タイトル（英）	SP2000-11 Selective training of speaker-clustered HMMs
サブタイトル（和）
キーワード(1)（和/英）	ニュース音声 / Broadcast news
キーワード(2)（和/英）	音声認識 / subtitling
キーワード(3)（和/英）	音響モデル / speech recognition
キーワード(4)（和/英）	音声データベース / acoustic model
キーワード(5)（和/英）	HMM / HMM
キーワード(6)（和/英）	クラスタリング / clustering
キーワード(7)（和/英）	GMM / GMM
第 1 著者氏名（和/英）	佐藤庄衛 / Shoei SATO
第 1 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
第 2 著者氏名（和/英）	世木寛之 / Hiroyuki SEGI
第 2 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
第 3 著者氏名（和/英）	尾上和穂 / Kazuo ONOE
第 3 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
第 4 著者氏名（和/英）	今井亨 / Toru IMAI
第 4 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
第 5 著者氏名（和/英）	田中秀樹 / Hideki TANAKA
第 5 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
第 6 著者氏名（和/英）	安藤彰男 / Akio ANDO
第 6 著者所属（和/英）	NHK放送技術研究所 NHK Science & Technical Research Laboratories
発表年月日	2000/6/15
資料番号	SP2000-11
巻番号（vol）	vol.100
号番号（no）	136
ページ範囲	pp.-
ページ数	7
発行日