講演名 | 2006/12/15 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム) 本間 真一, 小林 彰夫, 尾上 和穂, 佐藤 庄衛, 今井 亨, 都木 徹, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 一般に,大語彙連続音声認識では,認識装置に登録可能な語彙のサイズに制限があるため,語彙に登録されていない単語(未知語)は認識できないという問題がある.そこで本稿では,任意の長さのサブワードの連接からなるカナ文字列によってあらゆるパターンの未知語を表現し,認識結果を出力する手法を提案する.未知語を構成する可変長サブワード系列の出力確率は,一般的な長さ1のシンボルを出力するHMMを拡張し,最尤推定によって学習する.また,登録するサブワードの種類を削減するために,MDL規準によるサブワードの選択と出力確率の再推定を行う.認識時には,登録語彙によって構築した言語モデルと未知語用HMMを組み合わせ,未知語を含む音声区間をカナ文字列で出力する.自然ドキュメンタリー番組の音声認識実験の結果,未知語を含む発話の単語誤り率は26.7%から18.4%に改善した. |
抄録(英) | General LVCSR has a problem that Out-Of-Vocabulary (OOV) words cannot be recognized because of limitations of registered words. In this paper, we propose a novel approach to recognize every OOV word by using Kana character strings of connected variable-length sub-words. We estimate output probabilities of the sub-word patterns by maximum likelihood estimation applying a general HMM which emits a unit symbol at a time. In order to reduce the number of the sub-words, we select the sub-words based on the MDL criterion and re-estimate their output probabilities. When we perform speech recognition, the HMM for OOV words is used with a language model constructed by using vocabulary words and outputs Kana character strings from the input speech segments including OOV words. In a recognition experiment of a broadcast documentary program dealing with nature, the word error rate of evaluation data including OOV words in each sentence was reduced from 26.7% to 18.4%. |
キーワード(和) | 大語彙連続音声認識 / 言語モデル / 未知語処理 / HMM / MDL規準 |
キーワード(英) | LVCSR / Language Model / OOV / HMM / MDL Criterion |
資料番号 | NLC2006-67,SP2006-123 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2006/12/15(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | Speech Recognition with Out-of-Vocabulary Word Processing Using a Variable-Length Sub-Word HMM |
サブタイトル(和) | |
キーワード(1)(和/英) | 大語彙連続音声認識 / LVCSR |
キーワード(2)(和/英) | 言語モデル / Language Model |
キーワード(3)(和/英) | 未知語処理 / OOV |
キーワード(4)(和/英) | HMM / HMM |
キーワード(5)(和/英) | MDL規準 / MDL Criterion |
第 1 著者 氏名(和/英) | 本間 真一 / Shinichi HOMMA |
第 1 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
第 2 著者 氏名(和/英) | 小林 彰夫 / Akio KOBAYASHI |
第 2 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
第 3 著者 氏名(和/英) | 尾上 和穂 / Kazuo ONOE |
第 3 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
第 4 著者 氏名(和/英) | 佐藤 庄衛 / Shoei SATO |
第 4 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
第 5 著者 氏名(和/英) | 今井 亨 / Toru IMAI |
第 5 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
第 6 著者 氏名(和/英) | 都木 徹 / Tohru TAKAGI |
第 6 著者 所属(和/英) | NHK放送技術研究所 NHK (Japan Broadcasting Corporation) Science and Technical Research Laboratories |
発表年月日 | 2006/12/15 |
資料番号 | NLC2006-67,SP2006-123 |
巻番号(vol) | vol.106 |
号番号(no) | 444 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |