講演名 2006/12/15
可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
本間 真一, 小林 彰夫, 尾上 和穂, 佐藤 庄衛, 今井 亨, 都木 徹,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 一般に,大語彙連続音声認識では,認識装置に登録可能な語彙のサイズに制限があるため,語彙に登録されていない単語(未知語)は認識できないという問題がある.そこで本稿では,任意の長さのサブワードの連接からなるカナ文字列によってあらゆるパターンの未知語を表現し,認識結果を出力する手法を提案する.未知語を構成する可変長サブワード系列の出力確率は,一般的な長さ1のシンボルを出力するHMMを拡張し,最尤推定によって学習する.また,登録するサブワードの種類を削減するために,MDL規準によるサブワードの選択と出力確率の再推定を行う.認識時には,登録語彙によって構築した言語モデルと未知語用HMMを組み合わせ,未知語を含む音声区間をカナ文字列で出力する.自然ドキュメンタリー番組の音声認識実験の結果,未知語を含む発話の単語誤り率は26.7%から18.4%に改善した.
抄録(英) General LVCSR has a problem that Out-Of-Vocabulary (OOV) words cannot be recognized because of limitations of registered words. In this paper, we propose a novel approach to recognize every OOV word by using Kana character strings of connected variable-length sub-words. We estimate output probabilities of the sub-word patterns by maximum likelihood estimation applying a general HMM which emits a unit symbol at a time. In order to reduce the number of the sub-words, we select the sub-words based on the MDL criterion and re-estimate their output probabilities. When we perform speech recognition, the HMM for OOV words is used with a language model constructed by using vocabulary words and outputs Kana character strings from the input speech segments including OOV words. In a recognition experiment of a broadcast documentary program dealing with nature, the word error rate of evaluation data including OOV words in each sentence was reduced from 26.7% to 18.4%.
キーワード(和) 大語彙連続音声認識 / 言語モデル / 未知語処理 / HMM / MDL規準
キーワード(英) LVCSR / Language Model / OOV / HMM / MDL Criterion
資料番号 NLC2006-67,SP2006-123
発行日

研究会情報
研究会 SP
開催期間 2006/12/15(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Speech Recognition with Out-of-Vocabulary Word Processing Using a Variable-Length Sub-Word HMM
サブタイトル(和)
キーワード(1)(和/英) 大語彙連続音声認識 / LVCSR
キーワード(2)(和/英) 言語モデル / Language Model
キーワード(3)(和/英) 未知語処理 / OOV
キーワード(4)(和/英) HMM / HMM
キーワード(5)(和/英) MDL規準 / MDL Criterion
第 1 著者 氏名(和/英) 本間 真一 / Shinichi HOMMA
第 1 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 2 著者 氏名(和/英) 小林 彰夫 / Akio KOBAYASHI
第 2 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 3 著者 氏名(和/英) 尾上 和穂 / Kazuo ONOE
第 3 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 4 著者 氏名(和/英) 佐藤 庄衛 / Shoei SATO
第 4 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 5 著者 氏名(和/英) 今井 亨 / Toru IMAI
第 5 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 6 著者 氏名(和/英) 都木 徹 / Tohru TAKAGI
第 6 著者 所属(和/英) NHK放送技術研究所
NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
発表年月日 2006/12/15
資料番号 NLC2006-67,SP2006-123
巻番号(vol) vol.106
号番号(no) 444
ページ範囲 pp.-
ページ数 6
発行日