第三章 通話品質預測模型
3.2 音質評量指標
3.2.1 語音編碼損害因子- I ec …
使用語音壓縮技術可以減少資料傳輸量,有效節省頻寬的使用。
其編碼處理有許多選擇,如 G.711 PCM、G.729a CS-ACELP、G.723.1 MPC-MLQ,依位元率區隔不同模式所衍生的信號失真亦存在明顯差 異。簡述如下︰
[1] G.711 PCM: 由 ITU-T 於 1972 年制定的 64Kbits/sec 語音壓縮標 準,也是傳統電話所採用的編碼模式,它是一種採用取樣導向(sample oriented)的波形編碼模式。由於人耳所能聽到的頻率範圍最高不超過 4KHz,根據 Nysquist 取樣定理採 8KHz 的取樣頻率,再以 8bits 量化 個別的取樣值。由於人通常在特殊情況下才會提高或是降低音量,所 以一般講話的音量範圍給予線性的量化,其他區域給予非線性的量 化,依量化方式不同而分成兩種規格,歐規是採用A law− ,美規則是 採用µ−law。
[2] G.729a CS-ACELP:由 ITU-T 於 1995 年制定的 8Kbits/sec 語音壓 縮標準,屬於一種音框導向(frame-oriented)的處理模式,將數位語音 訊號切割成一連串固定長度為 10ms 的音框(80 個取樣值),並等分二個 子音框(subframe) 。G.729a 編碼器採用共軛架構代數碼激發線性預測 技術(Conjugate-Structure Algebraic-Code-Excited Linear-Prediction,
CS-ACELP),兼具波形編碼以及參數編碼的優點。首先以十階線性預 測濾波器係數來表示語音訊號的短時距相關特性,並利用最小誤差分 析合成搜尋法找出語音訊號的長時距類周期激發源 ,最後利用多重 脈衝訊號逼近其預測殘值。其中長時距類周期激發源及預測殘值的增 益編碼部分,是使用共軛架構向量量化(conjugate-structure VQ)。
[3] G.723.1 MPC-MLQ: 為 ITU-T 於 1996 訂定的雙位元率(6.3 Kbps 及 5.3 Kbps)語音編碼壓縮標準,也是採用音框導向的處理模 式。每個音框有 240 個數位化之取樣點。在編碼區塊的流程上,兩 種速率編碼模式的參數計算過程大致相同,主要差異在於預測殘值編 碼的不同。
每一種編碼標準均有其特定的聆聽 MOS(listening MOS) ,利用 圖 3.1 即可求得其對應的 R 值。一般而言,聆聽 MOS 並未將延遲及 封 包 漏 失 的 音 質 損 害 納 入 考 量 , 因 此 公 式 (3.2) 可 簡 化 為
94.2 ec( )
R= −I r ,而依此建立不同編碼標準與Iec的對應關係如圖 3.2 所 示
圖 3.2 編碼位元率與對應的音質損害
就圖 3.2 的關係可以看出,隨著編碼位元率的下降,音質的損害值明 顯的增加,尤其是 G.729a,G.723.1 與 GSM,雖然三者位元率接近,
造成的損害卻明顯的快速爬升。這是由於高壓縮率雖然能節省頻寬的 使用,然而封包與封包之間的關聯性卻明顯的降低,在網路傳送語音 封包時,若發生封包漏失的現象即有可能造成聲音斷斷續續有如被剪 掉一樣。因此事先對封包做保護的動作有其必要性,此重要議題會在 第四章探討。