講演名 2007/12/13
教師なし音素セグメンテーションの最適化に関する理論的・実験的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
喬 宇, 下村 直也, 峯松 信明,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 音素セグメンテーションは,音声認識や音声合成における基本的な問題である。しかしながら,言語情報や音響モデルに関する知識を全く用いない教師なし音素セグメンテーションは,非常に難解な問題として挙げられる。その本質的問題は「どうのように最適な分割を定義するか」である。本論文では,最適な分割を確率的な枠組みで定式化する。統計分析と情報理論を用いて、最適化対象として三つの目標関数を提案する: Mean Square Error (MSE), Log Determinant (LD) and Rate Distortion (RD)。特にRD関数は、情報レート歪み理論に基づいて定義されており、人間の言語知覚メカニズムと関連性を見いだすことができる。さらに,RD関数を用いて,最適な分割が直交変換に対して不変性をもつことを証明した。また,提案された目的関数を最適化するため、時間制約付きのagglomerative clusteringアルゴリズムを使用した。そこでは、積分関数を使用することによって効率的なアルゴリズムの実装手法を提案した。本実験では,TIMITデータベースを用いて,提案した目標関数の評価実験を行なった。Rate Distortionが最良の音素検出性能を示し(recall rate 79.1% in 20ms tolerance windows),それは近年発表された教師なしセグメンテーション手法[1],[4],[5]と比較して,より良い結果を示している。
抄録(英) Phoneme segmentation is a fundamental problem in speech recognition and synthesis studies. Unsupervised phoneme segmentation assumes no knowledge on linguistic contents and acoustic models, and thus poses a challenging problem. The essential question behind this problem is how to define the optimal segmentation. This paper formulates the optimal segmentation based on a probabilistic framework. Using statistics and information theory analysis, we develop three optimal objective functions, namely, Mean Square Error (MSE), Log Determinant (LD) and Rate Distortion (RD). Specially, RD objective function is defined by using information Rate Distortion theory and can be related to human speech perception mechanisms. And we prove that the optimal segmentation of RD is invariant to orthogonal transformation. To optimize the proposed objective functions, we use time-constrained agglomerative clustering algorithm. We also propose an efficient method to implement the algorithm by using integration functions. We carry out experiments on TIMIT database to compare the above three objective functions. The results show that Rate Distortion achieves the best performance (recall rate 79.1% in 20ms tolerance windows) and indicate that our method outperforms the recently published unsupervised segmentation methods [1], [4], [5].
キーワード(和) 教師なし音素的セグメンテーション / 最適化 / レート歪み
キーワード(英) unsupervised phoneme segmentation / optimization / rate distortion
資料番号 NLC2007-60,SP2007-123
発行日

研究会情報
研究会 SP
開催期間 2007/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 ENG
タイトル(和) 教師なし音素セグメンテーションの最適化に関する理論的・実験的考察(一般(ポスターセッション),第9回音声言語シンポジウム)
サブタイトル(和)
タイトル(英) Toward Optimal Unsupervised Phoneme Segmentation : A Theoretical and Experimental Investigation
サブタイトル(和)
キーワード(1)(和/英) 教師なし音素的セグメンテーション / unsupervised phoneme segmentation
キーワード(2)(和/英) 最適化 / optimization
キーワード(3)(和/英) レート歪み / rate distortion
第 1 著者 氏名(和/英) 喬 宇 / Yu QIAO
第 1 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
第 2 著者 氏名(和/英) 下村 直也 / Naoya SHIMOMURA
第 2 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
第 3 著者 氏名(和/英) 峯松 信明 / Nobuaki MINEMATSU
第 3 著者 所属(和/英) 東京大学大学院新領域創成科学研究科
Grad. School of Frontier Sciences, Univ. of Tokyo
発表年月日 2007/12/13
資料番号 NLC2007-60,SP2007-123
巻番号(vol) vol.107
号番号(no) 406
ページ範囲 pp.-
ページ数 6
発行日