第二章 寬頻語音編碼系統
2.1 AMR-WB 系統概述
行動電信網路的未來發展趨勢,將是結合無線通訊與網際網路,
突破時空限制以提供更人性化的隨身資訊服務。目前的行動電話服務 以第 2 代的 GSM 與第 2.5 代的 GPRS 為主,其核心技術為碼激發線性 預估(Code-Excited Linear Predition, CELP)編碼演算法[6]。主要 是藉由合成分析處理取得模擬人體發聲過程的線性預估係數和激發 源參數,再作壓縮處理以因應無線通訊的低位元率傳輸需求。問題是 現有電信網路均受限於其窄頻帶(200-3400 Hz),無法提供自然逼真 的語音品質,使用寬頻語音(50-7000 Hz)作為傳輸媒介則可大幅提昇 通話品質。相較於窄頻語音,寬頻語音向下延伸的 50-200Hz 頻段可 以增加聲音的臨場感和自然真實性,向上延伸的 3400-7000Hz 頻段則 會有效改善語意辨識度和語音清晰度。因此在 2001 年 3 月,歐規第 3 代標準組織 ETSI/3GPP 和 ITU-T 達成共識,選定適應性多重速率寬 頻技術(Adaptive Multi-Rate WideBand, AMR-WB)為新的語音編碼標 準[7]。AMR-WB 具有一項訊源控制速率功能,可支援 6.6 到 23.85
kbits/sec 九種編碼速率,能適時因應通道環境的改變而動態調整其 編碼模式與錯誤更正位元配置。
AMR-WB 編碼器與解碼器的系統方塊圖分別示於圖 2.1 及圖 2.2,
而其不同編碼模式的位元配置則列在表 2.1。編碼器的運作是根據代 數 碼 簿 激 發 線 性 預 測 演 算 法 (Algebraic Code-Excited Linear Prediction,ACELP),以在 20 毫秒的音框,採用 12.8 kHz 取樣頻率來 分析。在每一個語音訊框內,分析語音得到線性預測係數(Linear Prediction Coeffiecients,LPC)、適應性編碼簿索引值(Adaptive Codebook index,ACB) 、 固 定 性 編 碼 簿 索 引 值 (Fixed Codebook index,FCB)與增益(gains)等 ACELP 模型參數。除了這些參數外,在 23.85 kbps 的 模 式 下 需 要 額 外 計 算 語 音 的 高 頻 帶 增 益 索 引 值 (High-band gain index)。這些參數經過編碼後再傳送,以期有效降 低系統的整體傳輸位元率。
本論文將研究重點置於線性預測係數的重建上,因為線性預測 係數主要呈現每個音框的頻譜資訊,其重建的成敗對語音輸出品質扮 演重要的角色。在這AMR-WB編碼過程中,先執行線性預測預測取得的 16 個線性預測參數,再據以轉換為成量化失真靈敏度較低的導納頻 譜頻率(Immittance Spectrum Frequency,ISF)係數。因應無線電信 網路傳輸的低位元率需求,ISF係數的編碼壓縮處理有其必要性,主
要是將 16 個ISF係數進行分次多階量化向量量化(split-multistage vector quantization,S-MSVQ),其量化過程的位元分配如圖 2.3 所 示。所謂的分次多階向量量化是分兩階段處理:第一階段將 16 個ISF 係數X分成 9 和 7 個元素的兩組向量,個別執行向量量化求得兩個索 引值(Index),這兩個索引值所對應的ISF係數設定為X1;第二階段則 將X減去X1所得到誤差值X2,再依序以四組三個係數與一組四個係數 分成五組向量,最後個別求得五個向量量化索引值。
圖 2.1 AMR-WB ACELP 編碼器的方塊圖
圖 2.2 AMR-WB ACELP 解碼器的方塊圖
表 2.1 AMR-WB 不同編碼模式的位元配置
圖 2.3 ISF 係數的分次多階向量量化處理