講演名 2007/12/13
ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
齋藤 大輔, 松浦 良, 朝川 智, 峯松 信明, 広瀬 啓吉,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた.
抄録(英) In this paper, we theoretically and experimentally prove that the direction of cepstrum vectors strongly depends on vocal tract length and that this dependency is represented as rotation in the n dimensional cepstrum space. In speech recognition studies, vocal tract length normalization (VTLN) techniques are widely used to cancel age- and gender-differences. In VTLN, a frequency warping is often carried out and it can be implemented as a linear transformation in a cepstrum space ; c=Ac. However, the geometric properties of this transformation matrix A have not been well discussed. In this study, its properties are made clear using n dimensional geometry and it is shown that the matrix rotates any cepstrum vector similarly and apparently. Experimental results using resynthesized speech demonstrate that cepstrum vectors extracted from a speaker of 180[cm] in height and those from another speaker of 120[cm] in height are reasonably orthogonal. This result clarifies one of the reasons why children's speech is very difficult for conventional speech recognizers to deal with adequately.
キーワード(和) 周波数ウォーピング / ケプストラム / 幾何学的性質 / 回転行列 / 声道長
キーワード(英) frequency warping / cepstrum / geometric property / rotation matrix / vocal tract length
資料番号 NLC2007-65,SP2007-128
発行日

研究会情報
研究会 SP
開催期間 2007/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) A study of geometric dependency of cepstrum on vocal tract length
サブタイトル(和)
キーワード(1)(和/英) 周波数ウォーピング / frequency warping
キーワード(2)(和/英) ケプストラム / cepstrum
キーワード(3)(和/英) 幾何学的性質 / geometric property
キーワード(4)(和/英) 回転行列 / rotation matrix
キーワード(5)(和/英) 声道長 / vocal tract length
第 1 著者 氏名(和/英) 齋藤 大輔 / Daisuke SAITO
第 1 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Graduate School of Frontier Sciences, The University of Tokyo
第 2 著者 氏名(和/英) 松浦 良 / Ryo MATSUURA
第 2 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Graduate School of Frontier Sciences, The University of Tokyo
第 3 著者 氏名(和/英) 朝川 智 / Satoshi ASAKAWA
第 3 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Graduate School of Frontier Sciences, The University of Tokyo
第 4 著者 氏名(和/英) 峯松 信明 / Nobuaki MINEMATSU
第 4 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Graduate School of Frontier Sciences, The University of Tokyo
第 5 著者 氏名(和/英) 広瀬 啓吉 / Keikichi HIROSE
第 5 著者 所属(和/英) 東京大学大学院情報理工学系研究科
Graduate School of Information Science and Technology, The University of Tokyo
発表年月日 2007/12/13
資料番号 NLC2007-65,SP2007-128
巻番号(vol) vol.107
号番号(no) 406
ページ範囲 pp.-
ページ数 6
発行日