講演名 1998/4/23
単語トレリスインデックスを用いた大語彙連続音声認識エンジンJULIUS
李 晃伸, 河原 達也, 堂下 修司,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 段階的探索アルゴリズムで広く用いられている単語グラフ形式は, 入力音声を単語単位で決定的に区分化するため単語対近似の導入が必須であり, 特に大語彙で処理量の増大が著しい。一方トレリス形式は単語境界の非決定性を保持できるが, 探索空間を直接的に限定できない。これに対し本稿では, トレリス形式を拡張した単語トレリスインデックス形式を提案し, 大語彙での高精度かつ高効率の探索を実現する。5, 000語の毎日新聞記事読み上げタクスにおいて, 提案手法を実装した認識エンジンJULIUSを用いて認識実験を行った結果, 認識精度が1.6%改善された。さらに第1パスでより強い近似である1-best近似を用いた場合, メモリ効率を10倍以上改善しながら第2パスでは従来手法とほぼ同等の認識精度が得られた。最後に単語間音素環境依存を考慮した最終的な単語認識精度は91.4%を達成した。
抄録(英) Word graph, a popular intermediate format used in multi-pass search algorithms for LVCSR, definitely aligns words to a certain division of speech input. So expensive wordpair approximation is required to get proper likelihood. Trellis format, on the other hand, keeps ambiguity of word boundary to later path but it lacks information for space-narrowing which is essential for LVCSR. Thus we propose its extension format "word trellis index", frame-indexed active word lists, to use trellis in LVCSR. We implement the method as a portable speech recognition engine "JULIUS". Experimental results on a 5, 000 word newspaper reading task show that word %error is improved by 1.6% from word graph to trellis. Moreover, when simpler 1-best approximation is assumed, the total %error doesn't differ so much, while workspace size is reduced to almost 1/10. Finally, by handling inter-word context dependency, word accuracy reaches 91.4% in the best case.
キーワード(和) 大語彙連続音声認識 / 探索アルゴリズム / 段階的探索 / トレリス / 単語グラフ
キーワード(英) LVCSR / search algorithm / multi-pass search / trellis / word graph
資料番号
発行日

研究会情報
研究会 SP
開催期間 1998/4/23(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 単語トレリスインデックスを用いた大語彙連続音声認識エンジンJULIUS
サブタイトル(和)
タイトル(英) JULIUS-a Japanese LVCSR Engine using World Trellis Index
サブタイトル(和)
キーワード(1)(和/英) 大語彙連続音声認識 / LVCSR
キーワード(2)(和/英) 探索アルゴリズム / search algorithm
キーワード(3)(和/英) 段階的探索 / multi-pass search
キーワード(4)(和/英) トレリス / trellis
キーワード(5)(和/英) 単語グラフ / word graph
第 1 著者 氏名(和/英) 李 晃伸 / Akinobu Lee
第 1 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Graduate School of Informatics Kyoto University
第 2 著者 氏名(和/英) 河原 達也 / Tatsuya Kawahara
第 2 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Graduate School of Informatics Kyoto University
第 3 著者 氏名(和/英) 堂下 修司 / Shuji Doshita
第 3 著者 所属(和/英) 京都大学大学院情報学研究科知能情報学専攻
Graduate School of Informatics Kyoto University
発表年月日 1998/4/23
資料番号
巻番号(vol) vol.98
号番号(no) 32
ページ範囲 pp.-
ページ数 8
発行日