講演名 2007/11/21
無作為判別構造解析を用いた日本語母音連結発声の自動認識
喬 宇, 朝川 智, 峯松 信明,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音声信号は様々な非言語的要因により変化し,音声認識システムはそれらに対処する必要がある.多くの非言語的変動は特徴量空間の変換により表現することができる.音声の構造的表象は特徴量空間の変換に対して不変であることが示されており,非言語的変動に対して頑健な音声認識が可能となる.しかし,構造的表象はその高い次元性が問題となる.これにより計算量が増えるだけでなく次元の呪い(curse of dimensionality)の問題も生じる.本研究では,この問題を解決する手法としてRandom Discriminant Structure Analysis (RDSA)を提案する.本手法は特徴量選択と判別分析とを用いることにより,高い次元性を持つ構造的表象のパラメータから冗長性を削減し,より低い次元の識別的な特徴量を計算する.さらに識別的特徴量を用いて複数の識別器を学習し,それらを統合することによって最終的な識別結果を出力する.連続的に発声された日本語5母音系列をタスクとした認識実験において,8名の話者により学習した提案手法は98.3%の認識率を示し,4,130名による不特定話者HMM(97.4%)を上回る性能を示すことを確認した.
抄録(英) Automatic speech recognition has to deal with the non-linguistic variations of speech signals. Many non-linguistic variations can be modeled as the transformations of features. The universal structure of speech [12], [13], proves to be invariant to the feature transformations, and thus provides a robust representation for speech recognition. One of the difficulties of using the structure representation is due to its high dimensionality. This not only increases computational cost but also easily suffers from the curse of dimensionality [3], [8]. In this paper, we introduce Random Discriminant Structure Analysis (RDSA) to deal with this problem. Based on the observation that structural features are highly correlated and include large redundancy, the RDSA combines random feature selection and discriminative analysis to calculate several low dimensional and discriminative representations from an input structure. Then an individual classifier is trained for each representation and the outputs from each classifier are integrated for the final classification decision. Experimental results on connected Japanese vowel utterances show that our approach achieves a recognition rate of 98.3% based on the training data of 8 speakers, which is higher than that (97.4%) of HMMs trained with the utterances of 4,130 speakers.
キーワード(和) 無作為判別構造解析 / 音声の構造的表象 / 音声認識 / 日本語母音系列
キーワード(英) random discriminant structure / structural representation of speech / speech recognition / Japanese vowel sequences
資料番号 SP2007-89
発行日

研究会情報
研究会 SP
開催期間 2007/11/21(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 無作為判別構造解析を用いた日本語母音連結発声の自動認識
サブタイトル(和)
タイトル(英) Recognition of Connected Japanese Vowel Utterances Using Random Discriminant Structure Analysis
サブタイトル(和)
キーワード(1)(和/英) 無作為判別構造解析 / random discriminant structure
キーワード(2)(和/英) 音声の構造的表象 / structural representation of speech
キーワード(3)(和/英) 音声認識 / speech recognition
キーワード(4)(和/英) 日本語母音系列 / Japanese vowel sequences
第 1 著者 氏名(和/英) 喬 宇 / Yu QIAO
第 1 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
第 2 著者 氏名(和/英) 朝川 智 / Satoshi ASAKAWA
第 2 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
第 3 著者 氏名(和/英) 峯松 信明 / Nobuaki MINEMATSU
第 3 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
発表年月日 2007/11/21
資料番号 SP2007-89
巻番号(vol) vol.107
号番号(no) 356
ページ範囲 pp.-
ページ数 6
発行日