講演名 2005/6/16
離散混合分布型HMMによる講演音声認識の検討(多言語, CSJ, 認識・理解・対話・一般)
小坂 哲夫, 山本 明祥, 加藤 正治, 好田 正紀,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) これまで我々は離散混合分布型HMM(DMHMM: Discrete-Mixture HMM)を用い, 雑音下音声認識の検討を行なってきた.その結果, 一般的な環境雑音や突発性雑音下において, 従来の混合連続分布HMMと比較して高い性能が得られることが分かった.しかし, 雑音のないクリーンな環境での性能については明らかではない.そこで本研究では, クリーンな環境での音声データを用い, DMHMMの性能評価を行なうことを目的とする.評価に当たっては, 他機関との比較ができる共通コーパスを用いるのが望ましいこと, 及び, なるべく困難なタスクでの性能を明らかにしたいため, 本研究では「日本語話し言葉コーパス」(CSJ)を用いることとした.音響モデルとして3000状態16混合のDMHMMを, 言語モデルとしてCSJの2,668講演, 686万語から学習した発音変形に依存したモデルを使用した.認識実験の結果, 男性話者の学会講演10講演(testset1)に対して, 単語誤り率22.20%が得られ, 本手法の有効性が確認された.
抄録(英) We have investigated noisy speech recognition by using discrete-mixture HMM (DMHMM), and found that the performance of DMHMM overcame that of continuous-mixture HMM under environmental noise conditions or impulsive noise conditions. However, it is not clear whether this method is effective in clean conditions. The aim of this work is to evaluate the performance of the DMHMM system in clean conditions. In evaluation, we decided to use the "Corpus of Spontaneous Japanese" (CSJ) because we want to compare the performance of our system with that of other recognition systems with common speech corpus, and clarify the performance in such a more difficult task. In the recognition experiments, 3000-state DMHMMs (16 mixture components per state) were used as acoustic models. The language model which represents the pronunciation variety was trained by using 6.86 million words from 2668 lectures in CSJ and was used for recognition. As a result, the system obtained 22.20% WER for 10 academic lectures uttered by male speakers (testset1) and demonstrated the effectiveness of the proposed method.
キーワード(和) 離散分布HMM / 日本語話し言葉コーパス / 音響モデル / 大語彙連続音声認識
キーワード(英) discrete HMM / corpus of spontaneous Japanese / acoustic model / LVCSR
資料番号 SP2005-25
発行日

研究会情報
研究会 SP
開催期間 2005/6/16(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 離散混合分布型HMMによる講演音声認識の検討(多言語, CSJ, 認識・理解・対話・一般)
サブタイトル(和)
タイトル(英) A Study on Lecture Speech Recognition Using Discrete-Mixture HMMs
サブタイトル(和)
キーワード(1)(和/英) 離散分布HMM / discrete HMM
キーワード(2)(和/英) 日本語話し言葉コーパス / corpus of spontaneous Japanese
キーワード(3)(和/英) 音響モデル / acoustic model
キーワード(4)(和/英) 大語彙連続音声認識 / LVCSR
第 1 著者 氏名(和/英) 小坂 哲夫 / Tetsuo KOSAKA
第 1 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 2 著者 氏名(和/英) 山本 明祥 / Akihiro YAMAMOTO
第 2 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 3 著者 氏名(和/英) 加藤 正治 / Masaharu KATOH
第 3 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
第 4 著者 氏名(和/英) 好田 正紀 / Masaki KOHDA
第 4 著者 所属(和/英) 山形大学工学部
Faculty of Engineering, Yamagata University
発表年月日 2005/6/16
資料番号 SP2005-25
巻番号(vol) vol.105
号番号(no) 132
ページ範囲 pp.-
ページ数 6
発行日