講演名 2010-12-21
極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
能勢 隆, 熊本 政真, 小林 隆夫,
PDFダウンロードページ PDFダウンロードページへ
抄録(和) 本稿では極低ビットレートでの符号化を目的としたHMM音素ボコーダのためのF0符号化方法として,量子化F0シンボルを用いた多空間確率分布HMM(MSD-HMM)に基づく手法を提案する.提案法ではF0をMSD-HMMによりモデル化する際に音素毎の対数F0の平均値を量子化したシンボルを韻律コンテキストとして利用する.これにより,アクセント型などの韻律情報を用いずにF0のモデル化を行うことができる.符号化時は,入力音声から抽出されたF0を量子化F0シンボルに変換し,音素認識により得られた音素および状態継続長情報とともに伝送する.復号化時は音素と量子化F0シンボルから音声合成用のコンテキスト依存ラベルを作成し,与えられた状態継続長に基づいてあらかじめ学習したMSD-HMMを用いてスペクトルおよびF0系列を最尤基準により生成する.提案法では当該の音素,F0シンボルだけでなく,先行および後続の情報もコンテキストとして使用できるという利点がある.評価実験により,提案法によるF0符号化を用いた場合,50bit/s以下のビットレートでも符号化によるF0の劣化はほとんど気にならない程度であり,極低ビットレートでの音声符号化において有効であることを示す.
抄録(英) This paper presents a novel F0 coding technique for very low bit-rate HMM-based phonetic vocoder. Our technique is based on the multi-space distribution HMM (MSD-HMM) with quantized F0 symbols used as a prosodic context. By introducing the F0 symbol, we can model F0 values without using manually labeled speech data including accent information. In the encoding process, the F0 sequence extracted from an input utterance is converted into the quantized F0 symbol sequence, and these symbols are transmitted with the phonemes and state durations obtained by a phoneme recognizer. In the decoding process, context-dependent labels are created from the phonemes and F0 symbols, and the spectral and F0 sequences are generated using the pre-trained MSD-HMM on the basis of a maximum likelihood criterion. The experimental results show that the degradation of F0 quality through the coding process is not annoying even if the bit-rate for F0 is less than 50 bit/s.
キーワード(和) 音素ボコーダ / HMM音声合成 / 極低ビットレート音声符号化 / 量子化F0コンテキスト / 多空間確率分布HMM(MSD-HMM)
キーワード(英) phonetic vocoder / HMM-based speech synthesis / very low bit-rate speech coding / quantized F0 context / multi-space distribution HMM (MSD-HMM)
資料番号 NLC2010-28,SP2010-101
発行日

研究会情報
研究会 SP
開催期間 2010/12/13(から1日開催)
開催地(和)
開催地(英)
テーマ(和)
テーマ(英)
委員長氏名(和)
委員長氏名(英)
副委員長氏名(和)
副委員長氏名(英)
幹事氏名(和)
幹事氏名(英)
幹事補佐氏名(和)
幹事補佐氏名(英)

講演論文情報詳細
申込み研究会 Speech (SP)
本文の言語 JPN
タイトル(和) 極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討(一般(ポスターセッション),第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
サブタイトル(和)
タイトル(英) Study on HMM-based F0 Coding for Very Low Bit-Rate Vocoder
サブタイトル(和)
キーワード(1)(和/英) 音素ボコーダ / phonetic vocoder
キーワード(2)(和/英) HMM音声合成 / HMM-based speech synthesis
キーワード(3)(和/英) 極低ビットレート音声符号化 / very low bit-rate speech coding
キーワード(4)(和/英) 量子化F0コンテキスト / quantized F0 context
キーワード(5)(和/英) 多空間確率分布HMM(MSD-HMM) / multi-space distribution HMM (MSD-HMM)
第 1 著者 氏名(和/英) 能勢 隆 / Takashi NOSE
第 1 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 2 著者 氏名(和/英) 熊本 政真 / Masashi KUMAMOTO
第 2 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
第 3 著者 氏名(和/英) 小林 隆夫 / Takao KOBAYASHI
第 3 著者 所属(和/英) 東京工業大学大学院総合理工学研究科
Interdisciplinary Graduate School of Science and Engineering, Tokyo Institute of Technology
発表年月日 2010-12-21
資料番号 NLC2010-28,SP2010-101
巻番号(vol) vol.110
号番号(no) 357
ページ範囲 pp.-
ページ数 6
発行日