講演名 | 2007/12/13 ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム) 齋藤 大輔, 松浦 良, 朝川 智, 峯松 信明, 広瀬 啓吉, |
---|---|
PDFダウンロードページ | PDFダウンロードページへ |
抄録(和) | 本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた. |
抄録(英) | In this paper, we theoretically and experimentally prove that the direction of cepstrum vectors strongly depends on vocal tract length and that this dependency is represented as rotation in the n dimensional cepstrum space. In speech recognition studies, vocal tract length normalization (VTLN) techniques are widely used to cancel age- and gender-differences. In VTLN, a frequency warping is often carried out and it can be implemented as a linear transformation in a cepstrum space ; c=Ac. However, the geometric properties of this transformation matrix A have not been well discussed. In this study, its properties are made clear using n dimensional geometry and it is shown that the matrix rotates any cepstrum vector similarly and apparently. Experimental results using resynthesized speech demonstrate that cepstrum vectors extracted from a speaker of 180[cm] in height and those from another speaker of 120[cm] in height are reasonably orthogonal. This result clarifies one of the reasons why children's speech is very difficult for conventional speech recognizers to deal with adequately. |
キーワード(和) | 周波数ウォーピング / ケプストラム / 幾何学的性質 / 回転行列 / 声道長 |
キーワード(英) | frequency warping / cepstrum / geometric property / rotation matrix / vocal tract length |
資料番号 | NLC2007-65,SP2007-128 |
発行日 |
研究会情報 | |
研究会 | SP |
---|---|
開催期間 | 2007/12/13(から1日開催) |
開催地(和) | |
開催地(英) | |
テーマ(和) | |
テーマ(英) | |
委員長氏名(和) | |
委員長氏名(英) | |
副委員長氏名(和) | |
副委員長氏名(英) | |
幹事氏名(和) | |
幹事氏名(英) | |
幹事補佐氏名(和) | |
幹事補佐氏名(英) |
講演論文情報詳細 | |
申込み研究会 | Speech (SP) |
---|---|
本文の言語 | JPN |
タイトル(和) | ケプストラムの声道長依存性に関する幾何学的考察(一般(ポスターセッション),第9回音声言語シンポジウム) |
サブタイトル(和) | |
タイトル(英) | A study of geometric dependency of cepstrum on vocal tract length |
サブタイトル(和) | |
キーワード(1)(和/英) | 周波数ウォーピング / frequency warping |
キーワード(2)(和/英) | ケプストラム / cepstrum |
キーワード(3)(和/英) | 幾何学的性質 / geometric property |
キーワード(4)(和/英) | 回転行列 / rotation matrix |
キーワード(5)(和/英) | 声道長 / vocal tract length |
第 1 著者 氏名(和/英) | 齋藤 大輔 / Daisuke SAITO |
第 1 著者 所属(和/英) | 東京大学大学院新領域創成科学研究科 Graduate School of Frontier Sciences, The University of Tokyo |
第 2 著者 氏名(和/英) | 松浦 良 / Ryo MATSUURA |
第 2 著者 所属(和/英) | 東京大学大学院新領域創成科学研究科 Graduate School of Frontier Sciences, The University of Tokyo |
第 3 著者 氏名(和/英) | 朝川 智 / Satoshi ASAKAWA |
第 3 著者 所属(和/英) | 東京大学大学院新領域創成科学研究科 Graduate School of Frontier Sciences, The University of Tokyo |
第 4 著者 氏名(和/英) | 峯松 信明 / Nobuaki MINEMATSU |
第 4 著者 所属(和/英) | 東京大学大学院新領域創成科学研究科 Graduate School of Frontier Sciences, The University of Tokyo |
第 5 著者 氏名(和/英) | 広瀬 啓吉 / Keikichi HIROSE |
第 5 著者 所属(和/英) | 東京大学大学院情報理工学系研究科 Graduate School of Information Science and Technology, The University of Tokyo |
発表年月日 | 2007/12/13 |
資料番号 | NLC2007-65,SP2007-128 |
巻番号(vol) | vol.107 |
号番号(no) | 406 |
ページ範囲 | pp.- |
ページ数 | 6 |
発行日 |