講演抄録/キーワード |
講演名 |
2007-06-28 15:15
制約条件付きクラスタリングによる連続音声からのイベント境界検出 ○下村直也・朝川 智・峯松信明・広瀬啓吉(東大) SP2007-12 |
抄録 |
(和) |
音声技術の高度化を図る場合,音素境界ラベルが付与された音声コーパスが要求されることがある.通常,HMMなどの音響モデルを用いた強制切り出し(forced alignment)を行なうことが多いが,この場合,学習データと切り出しデータの発話スタイルが異なると精度は劣化する.一方,音響モデルを必要としない,音響分析のみに基づいた(例えばスペクトル遷移最大点に着眼した)音素境界抽出も試みられている.この場合,学習データが存在しないため,上記の問題は原理的に回避できる.
本稿では,時間制約を持たせたボトムアップクラスタリングにより,音響モデルを用いずに,音声イベント境界を検出する手法について検討する.その際,入力音声に含まれる音素数を自動推定する方法,及び,提案手法がイベント群の階層構造を推定することに着眼し,音素やモーラなど異なる言語単位での境界検出の可能性について考察する.更に先行研究と比較することで,本手法の頑健性を示す. |
(英) |
Speech databases with accurate phoneme labeling are often required to improve speech technologies. Although HMM-based forced alignment is widely used, the performance easily decreases when the input speech data has a different speaking style from that of the speech data used for training HMMs. An alternative is a speech segmentation method only based on acoustic analysis. For example, the speech segmentation based on measuring spectral transition was proposed previously.
In this report, another analysis-based method is proposed which uses constrained clustering on a time series of frames. Some discussions will be done on estimation of the number of phonemes and detection of mora boundaries. Finally, by comparing the phoneme boundary detection performance between the previous method and the proposed method, the higher robustness of our proposal is shown. |
キーワード |
(和) |
音素境界検出 / クラスタリング / 時間制約 / 頑健性 / 階層構造 / / / |
(英) |
phoneme boundary detection / clustering / temporal constraint / robustness / hierarchical structure / / / |
文献情報 |
信学技報, vol. 107, no. 116, SP2007-12, pp. 25-30, 2007年6月. |
資料番号 |
SP2007-12 |
発行日 |
2007-06-21 (SP) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
SP2007-12 |