HMMに基づいた極低ビットレート音声符号化

広井 順; 徳田 恵一; 益子 貴史; 小林 隆夫; 北村 正

講演名	1998/9/11 HMMに基づいた極低ビットレート音声符号化広井順, 徳田恵一, 益子貴史, 小林隆夫, 北村正,
PDFダウンロードページ	PDFダウンロードページへ
抄録(和)	本文ではHMM(Hidden Markov Model)に基づく極低ビットレート音声符号化について述べている.符号化器側では, HMMにより音素認識を行ない, 復号化器に音素インデックス列, 状態継続長, ピッチ情報を伝送する.復号化器側では, 音素インデックス列に従い音素HMMを連結する.そして, 連結したHMMから, 状態継続長に従って, ML基準による音声パラメータ生成アルゴリズムにより, メルケプストラム列を生成する.最後に, 生成されたメルケプストラムを係数としてもつMLSA(Mel Log Spectrum Approximation)フィルタを, ピッチ情報に従って励振することによって合成音声を得る.主観評価実験の結果, ピッチ情報を除いて約150bit/s(26%の無音区間を含む)の提案方式により, 同じくピッチ情報を除いて400bit/s(8bit/frame×50frame/s)のベクトル量子化に基づくボコーダと同等の性能を得ることができた.
抄録(英)	This paper presents a very low bit rate speech coder based on HMM(Hidden Markov Model). The encoder is equivalent to a phoneme recognizer, and transmits phoneme indexes, state durations, and pitch information to the decoder. In the decoder, phoneme HMMs are concatenated according to the phoneme indexes, and a sequence of mel-cepstral coefficient vectors is generated from the concatenated HMM by using an ML-based speech parameter generation technique. Finally we obtain synthetic speech by exciting the MLSA(Mel Log Spectrum Approximation) filter, whose coefficients are given by mel-cepstral coefficients, according to the pitch information. A subjective listening test shows that the performance of the proposed coder at about 150 bit/s(for the test data including 26 % silence region)is comparable to a VQ-based vocoder at 400 bit/s(=8 bit/frame × 50 frame/s)without pitch quantization for both coders.
キーワード(和)	隠れマルコフモデル / MLSAフィルタ / 音声符号化 / 極低ビットレート
キーワード(英)	hidden Markov model / MLSA filter / speech coding / very low bit rate
資料番号	DSP98-84,SP98-63
発行日

研究会情報
研究会	SP
開催期間	1998/9/11(から1日開催)
開催地（和）
開催地（英）
テーマ（和）
テーマ（英）
委員長氏名（和）
委員長氏名（英）
副委員長氏名（和）
副委員長氏名（英）
幹事氏名（和）
幹事氏名（英）
幹事補佐氏名（和）
幹事補佐氏名（英）

講演論文情報詳細
申込み研究会	Speech (SP)
本文の言語	JPN
タイトル（和）	HMMに基づいた極低ビットレート音声符号化
サブタイトル（和）
タイトル（英）	VERY LOW BIT RATE SPEECH CODING BASED ON HMMS
サブタイトル（和）
キーワード(1)（和/英）	隠れマルコフモデル / hidden Markov model
キーワード(2)（和/英）	MLSAフィルタ / MLSA filter
キーワード(3)（和/英）	音声符号化 / speech coding
キーワード(4)（和/英）	極低ビットレート / very low bit rate
第 1 著者氏名（和/英）	広井順 / Jun Hiroi
第 1 著者所属（和/英）	名古屋工業大学知能情報システム学科 Department of Computer Science, Nagoya Inst.of Tech.
第 2 著者氏名（和/英）	徳田恵一 / Keiichi Tokuda
第 2 著者所属（和/英）	名古屋工業大学知能情報システム学科 Department of Computer Science, Nagoya Inst.of Tech.
第 3 著者氏名（和/英）	益子貴史 / Takashi Masuko
第 3 著者所属（和/英）	東京工業大学精密工学研究所 Precision and Intelligence Lab., Tokyo Inst.of Tech.
第 4 著者氏名（和/英）	小林隆夫 / Takao Kobayashi
第 4 著者所属（和/英）	東京工業大学大学院総合理工学研究科 Interdisciplinary Graduate School of Science and Engineering, Tokyo Inst.of Tech.
第 5 著者氏名（和/英）	北村正 / Tadashi Kitamura
第 5 著者所属（和/英）	名古屋工業大学知能情報システム学科 Department of Computer Science, Nagoya Inst.of Tech.
発表年月日	1998/9/11
資料番号	DSP98-84,SP98-63
巻番号（vol）	vol.98
号番号（no）	264
ページ範囲	pp.-
ページ数	6
発行日