講演名 | 2002/12/13 0-gram汎用LVCSRと音素弁別特徴ベクトルを利用した対話音声認識の検討 伊勢路 真吾, 福田 隆, 桂田 浩一, 新田 恒雄, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本報告では汎用LVCSRソフトウェアを利用して,対話音声を高精度で認識する方法を提案する.提案方式は,LVCSRが出力する音素系列を弁別的な特徴ベクトル系列に変換した後,対話管理部が指示する対話記述(語彙と文法)を利用してキーワードをスポッティングする.本方式の特徴は以下の二点にある.(1)LVCSRの言語制約を緩めることにより(0-gram,挿入ペナルティ有),LVCSRの持つ高い音素識別能力を最大限に利用している.(2)音素系列出力を弁別的な特徴ベクトル系列に置き換え,キーワードスポッティングを行うことにより,置換・脱落・付加誤りに対処している.本文では,道案内タスクの対話音声データを用いて,言語モデルにおける言語制約の違い,サブワードモデルとの比較,および混同行列を用いた整合方式との比較を行い,提案方式の有効性を示す. |
抄録(英) | This paper describes an attempt to recognize spontaneously spoken dialogue by using a general-purpose LVCSR software. In the proposed method, a phoneme string output from the LVCSR is converted into a sequence of vectors represented with distinctive phonetic features, then keywords assigned by a dialogue manager are detected from the input vector sequence. The method takes advantage of the potential abilities of: (1) precise phoneme discrimination achieved by relaxing the linguistic constraint in the LVCSR, and (2) coping with the issued of substitution, deletion and insertion errors by combining a conversion process from a phoneme into a distinctive phonetic feature vector and a key-word spotting process. The proposed method shows significant improvements in comparison with the LVCSR software in an experiment with a spoken dialogue corpus of a map guidance task. |
キーワード(和) | 音声対話 / LVCSR / キーワードスポッティング / 言語モデル / サブワードモデル / 音素弁別特徴 / 混同行列 |
キーワード(英) | Spoken Dialogue / LVCSR / Keyword Spotting / Language Model / Sub-word Model / Distinctive Phonetic Feature / Confusion Matrix |
資料番号 | NLC2002-79 |
発行日 |
研究会情報 | |
研究会 | NLC |
---|---|
開催期間 | 2002/12/13(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Natural Language Understanding and Models of Communication (NLC) |
---|---|
本文の言語 | JPN |
タイトル(和) | 0-gram汎用LVCSRと音素弁別特徴ベクトルを利用した対話音声認識の検討 |
サブタイトル(和) | |
タイトル(英) | Recognition of Spontaneous Speech by Using a General-Purpose LVCSR with 0-gram and Distinctive Phonetic Features |
サブタイトル(和) | |
キーワード(1)(和/英) | 音声対話 / Spoken Dialogue |
キーワード(2)(和/英) | LVCSR / LVCSR |
キーワード(3)(和/英) | キーワードスポッティング / Keyword Spotting |
キーワード(4)(和/英) | 言語モデル / Language Model |
キーワード(5)(和/英) | サブワードモデル / Sub-word Model |
キーワード(6)(和/英) | 音素弁別特徴 / Distinctive Phonetic Feature |
キーワード(7)(和/英) | 混同行列 / Confusion Matrix |
第 1 著者 氏名(和/英) | 伊勢路 真吾 / Shingo ISEJI |
第 1 著者 所属(和/英) | 豊橋技術科学大学 大学院工学研究科 Graduate School of Engineering, Toyohashi University of Technology |
第 2 著者 氏名(和/英) | 福田 隆 / Takashi FUKUDA |
第 2 著者 所属(和/英) | 豊橋技術科学大学 大学院工学研究科 Graduate School of Engineering, Toyohashi University of Technology |
第 3 著者 氏名(和/英) | 桂田 浩一 / Kouichi KATSURADA |
第 3 著者 所属(和/英) | 豊橋技術科学大学 大学院工学研究科 Graduate School of Engineering, Toyohashi University of Technology |
第 4 著者 氏名(和/英) | 新田 恒雄 / Tsuneo NITTA |
第 4 著者 所属(和/英) | 豊橋技術科学大学 大学院工学研究科 Graduate School of Engineering, Toyohashi University of Technology |
発表年月日 | 2002/12/13 |
資料番号 | NLC2002-79 |
巻番号(vol) | vol.102 |
号番号(no) | 528 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |