音声・オーディオ符号化
 speech and audio coding



 一定の帯域の音声(音響)信号をディジタル形式で表現する方法として, 帯域の2倍(ナイキスト周波数)以上の標本化周波数で標本化した振幅の数値を等間隔のステップ幅で量子化し, その数値を符号とする PCM が基本である. CD では 44.1kHz, DAT では 48kHzを標本化周波数とする PCM を使っている.電話用の音声では, 標本化周波数として8kHzを使っているが, 振幅方向のステップ幅を対数に近い特性に圧縮して量子化した8bitの圧伸 PCM を使っている.圧縮符号化としては, 波形の逐次処理, ブロック処理, ボコーダの3種類に大別できる.



図1 音声符号化のビットレートと品質の関係


 波形の逐次処理で, 波形の相関を利用する圧縮符号化としては, ナイキスト周波数の数倍の高い標本化周波数で, 振幅の差分を1bitで記録するデルタ変調やデルタシグマ変調と, 標本化周波数は PCM と同じであるが, 過去のサンプルからの適応的予測誤差を適応的なステップ幅で量子化する ADPCM がある.電話音声用の ITU-T 標準 G.726 は, 1サンプル当りの情報量が4bitの ADPCM を採用している.
 波形を一定個数まとめてブロックまたはフレーム単位で分析して圧縮する方法として, SBC , APC , ATC などがある.フレーム内でのスペクトルの形状を補助情報とし, 適応的情報割当てや, フィードバックをかけた量子化などで, 1サンプル当り2bit程度までの情報圧縮を実現している. APC-AB は SBC と APC を併用しており, MD 用の符号化と MPEG-1 , MPEG-2 のオーディオ標準は, SBC と ATC を併用している. MPEG-2AAC , AC-3 , Twin VQ などのオーディオ符号化は, ATC の一種である.自動車携帯電話用音声符号化としてマルチパルス符号化, CELP があり, スペクトルをフレーム単位で分析し, 波形そのものにもベクトル単位の閉ループの量子化を適用し, サンプル当り1bitから1/2bit程度で実用的な品質を達成している. GSM で使っている RPE-LTP , 北米と日本で使っている VSELP , 日本の PSI-CELP , ITU-T の G.729 ( CS-ACELP ), G.723.1 ( ACELP / MPC-MLQ )などがこの好例である. ITU-T の G.728 ( LD-CELP )は, ADPCM と CELP の中間に属する.
 音声の波形でなく, 音声を周期性パルスと雑音からなる音源とスペクトル形状で表現するモデルを使った符号化をボコーダまたは分析合成系と呼ぶ.スペクトル形状を表現するパラメータとしてケプストラム, PARCOR 係数, LSP パラメータなどがある.サンプル当り1/4bit程度までの圧縮が可能であるが, 通信用途には品質の問題がある.同様の圧縮率で品質を改善するために IMBE , MELP , 正弦波符号化, 波形補間符号化などがある.またスペクトル形状を音韻の長さ程度でまとめて量子化し, サンプル当り1/20程度以下のセグメントボコーダもある.
(守谷)




図2 主な音声・楽音符号化方式




(C)社団法人 電子情報通信学会 1998