講演名 | 2000/6/15 SP2000-11 話者クラス音響モデルのための学習データの自動選択手法 佐藤 庄衛, 世木 寛之, 尾上 和穂, 今井 亨, 田中 秀樹, 安藤 彰男, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた. |
抄録(英) | This paper proposes a method of constructing acoustic models for automatic news subtitling. In this method, two-stage clustering is used for an adaptation-data selection from a large-scale database. The first stage generates GMMs from a small amount of data and second atage clusters a large-scale database by the GMMs. A broadcast news transcription experiment showed that the proposed method reduced in toth a word error rate and processing time. The best result in the experiment showed 33% WER reduction and 25% decoding time reduction compared with the baseline method, which had no clustering. Furthermore, we found that it takes just 0.4 seconds from the beginning of an input utterance to select an HMM correctly. The result showed 18% processing time reduction in total compared with the baseline method. |
キーワード(和) | ニュース音声 / 音声認識 / 音響モデル / 音声データベース / HMM / クラスタリング / GMM |
キーワード(英) | Broadcast news / subtitling / speech recognition / acoustic model / HMM / clustering / GMM |
資料番号 | SP2000-11 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2000/6/15(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | SP2000-11 話者クラス音響モデルのための学習データの自動選択手法 |
サブタイトル(和) | |
タイトル(英) | SP2000-11 Selective training of speaker-clustered HMMs |
サブタイトル(和) | |
キーワード(1)(和/英) | ニュース音声 / Broadcast news |
キーワード(2)(和/英) | 音声認識 / subtitling |
キーワード(3)(和/英) | 音響モデル / speech recognition |
キーワード(4)(和/英) | 音声データベース / acoustic model |
キーワード(5)(和/英) | HMM / HMM |
キーワード(6)(和/英) | クラスタリング / clustering |
キーワード(7)(和/英) | GMM / GMM |
第 1 著者 氏名(和/英) | 佐藤 庄衛 / Shoei SATO |
第 1 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
第 2 著者 氏名(和/英) | 世木 寛之 / Hiroyuki SEGI |
第 2 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
第 3 著者 氏名(和/英) | 尾上 和穂 / Kazuo ONOE |
第 3 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
第 4 著者 氏名(和/英) | 今井 亨 / Toru IMAI |
第 4 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
第 5 著者 氏名(和/英) | 田中 秀樹 / Hideki TANAKA |
第 5 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
第 6 著者 氏名(和/英) | 安藤 彰男 / Akio ANDO |
第 6 著者 所属(和/英) | NHK放送技術研究所 NHK Science & Technical Research Laboratories |
発表年月日 | 2000/6/15 |
資料番号 | SP2000-11 |
巻番号(vol) | vol.100 |
号番号(no) | 136 |
ページ範囲 | pp.- |
ページ数 | 7 |
発行日 |