講演抄録/キーワード |
講演名 |
2007-11-16 11:00
狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討 ○小橋川美共・末廣一美・高岡 創・高山泰典(日本文理大)・西村一行(千葉工大)・福島 学・岡本壽夫(日本文理大)・柳川博文(千葉工大) EA2007-82 |
抄録 |
(和) |
著者等は,音声時間波形を1/4オクターブバンドの狭帯域に分割した信号の包絡線から狭帯域包絡線間相関係数を求め,それを特徴パラメータとする話者識別システムの提案を行っている.本稿では話者識別に有用な個人性を多く含む帯域について調査した結果を報告する.登録人数11名,登録語を共通の5語/人,識別語を約8語/人として正解率を調べた.その結果,全帯域(39帯域)で88%の正解率が,1/4オクターブバンドの中心周波数68Hz~273Hz(帯域番号6~14)と1091Hz~5187Hz(帯域番号22~31)の範囲(19帯域)を用いることで正解率83%となった.使用範囲が周波数範囲で約21%に制限したにもかかわらず正解率が約5%しか低下しなかったことから,この範囲が有用であることがわかった.またその範囲は,声帯音源周波数,第2フォルマント周波数,副鼻腔の共振周波数と関連する範囲であることがわかった. |
(英) |
This paper described the dependence between dominant frequency component in the text independent talker identification system. In the system, the correlation coefficients matrix that element is obtained from the correlation coefficients among hilbert envelopes of band pass filtered speech voice of 1/4 octave. We investigate the correct judgments ratio by changing the frequency range in the identification phase. The investigation was done by the 11 talkers with common registration words. About 8 words / talker are used in the identification phase. As a result, we found that the dominant frequency range is fc=68Hz to 273Hz(Band No.6 to 14) and fc=1091Hz to 5187Hz(Band No.22 to 31). The decrease of the correct judgments ratio between full frequency range and limited frequency range(21%) is 5%. The resulting frequency range includes the vocal cords, the second formant frequency, and the resonant in the paranasal sinuses. |
キーワード |
(和) |
話者識別 / 狭帯域 / 包絡線 / 識別率 / 時間波形 / 相関係数 / 鼻腔 / |
(英) |
talker identification / narrow band / envelope / correct judgement ratio / wave form / correlation / correlation coefficients / sinus |
文献情報 |
信学技報, vol. 107, no. 317, EA2007-82, pp. 13-18, 2007年11月. |
資料番号 |
EA2007-82 |
発行日 |
2007-11-09 (EA) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
EA2007-82 |