可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)

本間 真一; 小林 彰夫; 尾上 和穂; 佐藤 庄衛; 今井 亨; 都木 徹

講演名	2006/12/15 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム) 本間真一, 小林彰夫, 尾上和穂, 佐藤庄衛, 今井亨, 都木徹,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	一般に,大語彙連続音声認識では,認識装置に登録可能な語彙のサイズに制限があるため,語彙に登録されていない単語(未知語)は認識できないという問題がある.そこで本稿では,任意の長さのサブワードの連接からなるカナ文字列によってあらゆるパターンの未知語を表現し,認識結果を出力する手法を提案する.未知語を構成する可変長サブワード系列の出力確率は,一般的な長さ1のシンボルを出力するHMMを拡張し,最尤推定によって学習する.また,登録するサブワードの種類を削減するために,MDL規準によるサブワードの選択と出力確率の再推定を行う.認識時には,登録語彙によって構築した言語モデルと未知語用HMMを組み合わせ,未知語を含む音声区間をカナ文字列で出力する.自然ドキュメンタリー番組の音声認識実験の結果,未知語を含む発話の単語誤り率は26.7%から18.4%に改善した.
抄録(英)	General LVCSR has a problem that Out-Of-Vocabulary (OOV) words cannot be recognized because of limitations of registered words. In this paper, we propose a novel approach to recognize every OOV word by using Kana character strings of connected variable-length sub-words. We estimate output probabilities of the sub-word patterns by maximum likelihood estimation applying a general HMM which emits a unit symbol at a time. In order to reduce the number of the sub-words, we select the sub-words based on the MDL criterion and re-estimate their output probabilities. When we perform speech recognition, the HMM for OOV words is used with a language model constructed by using vocabulary words and outputs Kana character strings from the input speech segments including OOV words. In a recognition experiment of a broadcast documentary program dealing with nature, the word error rate of evaluation data including OOV words in each sentence was reduced from 26.7% to 18.4%.
キーワード(和)	大語彙連続音声認識 / 言語モデル / 未知語処理 / HMM / MDL規準
キーワード(英)	LVCSR / Language Model / OOV / HMM / MDL Criterion
資料番号	NLC2006-67,SP2006-123
発行日

研究会情報
研究会	SP
開催期間	2006/12/15(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Speech (SP)
本文の言語	JPN
タイトル（和）	可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
サブタイトル（和）
タイトル（英）	Speech Recognition with Out-of-Vocabulary Word Processing Using a Variable-Length Sub-Word HMM
サブタイトル（和）
キーワード(1)（和/英）	大語彙連続音声認識 / LVCSR
キーワード(2)（和/英）	言語モデル / Language Model
キーワード(3)（和/英）	未知語処理 / OOV
キーワード(4)（和/英）	HMM / HMM
キーワード(5)（和/英）	MDL規準 / MDL Criterion
第 1 著者氏名（和/英）	本間真一 / Shinichi HOMMA
第 1 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 2 著者氏名（和/英）	小林彰夫 / Akio KOBAYASHI
第 2 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 3 著者氏名（和/英）	尾上和穂 / Kazuo ONOE
第 3 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 4 著者氏名（和/英）	佐藤庄衛 / Shoei SATO
第 4 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 5 著者氏名（和/英）	今井亨 / Toru IMAI
第 5 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
第 6 著者氏名（和/英）	都木徹 / Tohru TAKAGI
第 6 著者所属（和/英）	NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories
発表年月日	2006/12/15
資料番号	NLC2006-67,SP2006-123
巻番号（vol）	vol.106
号番号（no）	444
ページ範囲	pp.-
ページ数	6
発行日