• 沒有找到結果。

音訊編解碼標準MPEG4-TFC之研究

N/A
N/A
Protected

Academic year: 2021

Share "音訊編解碼標準MPEG4-TFC之研究"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

1

行政院國家科學委員會補助專題研究計畫成果報告

※ ※※※※※※※※※※※※※※※※※※※※※※※

音訊編解碼標準 MPEG4-TFC 之研究

※ ※※※※※※※※※※※※※※※※※※※※※※※

計畫類別:■個別型計畫

□整合型計畫

計畫編號:NSC 89-2218-E-009-014

執行期間: 89 年 7 月 1 日至 90 年 7 月 31 日

計畫主持人:劉 啟 民 教 授

共同主持人:

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

(2)

2

執行單位:

交 通 大 學 資 訊 工 程 系

(3)

3

音訊編解碼標準 MPEG4-TFC 之研究

T h e S t u d y o n A u d i o C o d i n g S t a n d a r d — MPEG4-TF Coding

計畫編號:NSC 89-2218-E-009-014

執行期限:民 國 8 9 年 8 月 1 日 起 至 民 國 9 0 年 7 月 3 1 日 止 主持人:劉啟民 交通大學資訊工程系 主要參與研究生:

李文傑,李思瑋,楊存中,姚錦樹,林春發

一、中文摘要 壓縮標準 T/F Coding 共包含十模組:(一)增益控 制,(二)濾波和頻譜轉換(Filterbank),(三) 波形雜訊控制(Temporal Noise Shaping,TNS), (四)頻道間耦合(Intensity/Coupling),(五) 預測(Prediction),(六)立體聲調整(M/S), (七)位元分配(Bit-Allocation),(八)人耳聽 覺模式(Perceptual Model) ,(九)偶合向量量化 (Twin VQ) ,(十)位元式數學化編碼(Bit-Sliced Arithmetic Coding )。而另外此壓縮流程並定義以下 工具模組,(十一)感官雜訊取代(Perceptual Noise Substitution ),(十二)頻率選擇性轉換(Frequency Selective Switch Module),和(十三)取樣上升濾 波器 (Upsampling Filter Tool )。其中,前八模組與 AAC 的模組相同理論,也是上年度國科會計劃的研 究內容,本年度延續上年度前八模組的研究成果, 並對另五模組加以討論。

Abstract

The objective of the project is to study and implement the new audio standard. There are mainly thirteen modules in MPEG— AAC: (1) Gain Control, (2) Filterbank, (3) Temporal noise shaping, (4) Intensity/Coupling, (5) Prediction, (6) M/S adjustment, (7) Bit allocation, (8) Perceptual Model, (9) Twin Vector Quantization, (10) Bit-Sliced Arithmetic Coding, (11) Perceptual Noise Substitution (12) Frequency-Selective Switch Module, and (13) Upsampling Filter Tools.

Keywords: MPEG4, T/F Coding, Audio Coding. 二、緣由與目的 MPEG-4 之時頻轉換編碼,可當較低層的處理,同時 亦是最重要的高品質增進技術。其以 MPEG-2 AAC 為基礎,加入了數個新的模組,增強原本的編碼架 構,提供更好更有效率的壓縮表現。在整個音訊編 碼中,扮演舉足輕重的角色,是提升品質不可缺少 的處理技術。 時頻轉換編碼採用 AAC 的架構,故兩者主要流程相 當類似。不過為了增進壓縮的效能與品質,其加入 了四個新的模組,包含:長期預測(Long Term Prediction)、知覺上類雜訊取代(Perceptual Noise Substitution)、位元切分的算術編碼 (Bit-sliced Arithmetic Coding)與轉換域上加 權交錯的向量量化(Transform-domain weighted interleave Vector Quantization)。

長期預測模組(LTP):用於移除訊號中長期的重 複性,以獲得編碼增益為主要目的。其操作是在時 間軸上做預測,而在頻譜上取差值。觀察變化緩和 或穩定的訊號,或是人聲部分具有明顯音高性質 (pitch property)者,其前後時間之波形相當類 似、關連性很大,利用預測的方法,可以移除這樣 的重複性,而獲得編碼上的增益。LTP 便是為了這 樣的目的。其在時間軸上計算預測值,兩者皆轉至 頻譜上後再做相減,看其結果是否有好處,而決定 該訊號採不採用 LTP。 知覺上類雜訊取代(PNS):作雜訊取代,以更精 簡的方式傳送資料。由於人耳對於雜訊感覺不靈 敏,察覺不出頻譜分析結果與波形細緻的分佈,雜 訊聽起來就像另一個。因此以雜訊取代方式,可以 節省許多的位元。當在編碼時,若偵測到訊號為類 雜訊,便不須傳遞頻譜值,而改以傳送雜訊指示旗 標以及相關資訊(如:雜訊能量),如此解碼端得 知該訊號為類雜訊,自行產生虛造的訊號還原即 可。故可節省大量的編碼位元。因為是利用人耳聽 覺模式對雜訊感覺的特性,特稱之為『知覺上類雜 訊取代』。 位元切分算術編碼(BSAC):與霍夫曼編碼(Huffman Coding)一樣,也是不失真、不引進雜訊 (noiseless)的編碼方法。其將資料作位元切分, 組成一個個向量,由位元高往低做算術編碼,提供 更有效率的壓縮,並具有細緻位元率調整的彈性 (fine granule scalability)。首先將資料以二 進位表示,由最重要位元(most significant bit, MSB)開始處理,組成 4 位元的向量,再以算術編 碼方式加以壓縮,從低頻往高頻操作,再從 MSB 到 LSB(least significant bit)。同時引入多層次 架構(multi-layer structure)的觀念,針對每 一層定義所要處理的最高頻帶(band),層次愈高, 處理的範圍愈大,包含的頻帶也愈多。而且每高一 層,位元率便提高 1kbps,以更多的資源編碼訊號, 在可用的位元與音訊品質間達到一個平衡,提升壓 縮效果與表現。 轉換域上加權交錯之向量量化(Twin-VQ):以向 量量化取代原本的單一數值量化(scalar quantization),在較低位元率下提供更精簡、更 有效率的壓縮。其包含兩次的平坦處理,以及最後 的向量量化:將頻譜係數以交錯方式(interleave) 分割成一個個子向量,並以比重計算求取最佳的編 碼向量。而量化採用共軛結構(conjugate

(4)

4 structure),即有兩個碼書(codebook),分別 從中選出一個向量,再組合起來,表示解碼後的頻 譜係數。尋找過程有三階段:首先為事先選擇,分 別從二碼書中,選出最接近原值的數個候選者。其 次是主要尋找,從兩組候選者中,找出最佳的組合 以表示輸入訊號。最後資料包裝,傳遞索引值。 三、研究報告應含的內容 本計畫成果已整理成三碩士論文[1]- [3]. 對 MPEG4 T/F Coding 十三模組提出研究成果: 1. 增益控制, 2. 濾波和頻譜轉換(Filterbank),

3. 波形雜訊控制(Temporal Noise Shaping, TNS), 4. 頻道間耦合(Intensity/Couping), 5. 預測(Prediction), 6. 立體聲調整(M/S), 7. 位元分配(Bit-Allocation), 8. 人耳聽覺模式(Perceptual Model)。 9. 偶合向量量化 (Twin VQ) , 10. 位元式數學化編碼(Bit-Sliced Arithmetic Coding ),

11. 感官雜訊取代(Perceptual Noise Substitution ), 12. 頻率選擇性轉換(Frequency Selective Switch

Module),和

13. 取樣上升濾波器 (Upsampling Filter Tool )。 已完全達到原計畫預期目標。

尤其對 MPEG4 四個新加進來的模組,我們深入地研 究與分析,提出議題與我們的建議方法:

在 LTP(Long Term Prediction)模組裡,針 對延遲時間的計算,我們提出兩個搜尋方法以減少 複雜度,就所做實驗為例,計算量約剩下 15%,其 正確率高達 94%以上。另外,我們也仔細分析 LTP 採用之決定,對不同的區塊轉換,研究 LTP 使用情 況。並計算因加入 LTP 模組,真正獲得的編碼增益, 接著評斷其編碼空間。

對於 PNS(Perceptual Noise Substitution) 模組,我們由雜訊特性、語音壓縮技術與人耳聽覺 的遮蔽效應,研究出三種類雜訊訊號的偵測方法, 並以實驗驗證方法的可行性。結果顯示使用雜訊偵 測,品質確實優於不用偵測或不採用 PNS 的情況, 而且三種方法在不同位元率下,各自擁有最好的表 現,因此我們做一個結論,提出因時因地採用的雜 訊偵測方法。

在 BSAC(Bit-Sliced Arithmetic Coding)模 組中,我們詳細地探討 BSAC 整個編碼架構與流程 步驟,並研究其採用的層次結構,分析此結構之目 的與運用。另外,我們將 BSAC 和同樣為無雜訊編 碼的 Huffman coding 做一番比較,由實驗數據分 析兩者之差異與優劣。 對於最後一個模組 TwinVQ,我們不做深入的研 究探討,只簡略討論向量量化的部分。主要對向量 量化與 AAC 舊有的量化編碼詳細地比較分析,看其 差異與適宜的編碼空間。 本計畫分析與改良 MPEG-4 時頻轉換編碼中四 個新加入的模組,不僅提供一個完整的架構分析與 時頻轉換編碼的實作技巧,進一步希望能有效地提 升音訊品質,努力達到低位元率、高品質的聽覺享 受。 四、參考文獻 [1] 姚錦樹,MPEG-4 時頻轉換編碼之模組分析與改 良,八 十 九 年 六 月交通大學資工系碩士論文。 [2] 林春發,MPEG-4 音訊壓縮中 TwinVQ 之探 討,八 十 九 年 六 月交通大學資工系碩士論文。 [3] 楊存中,MPEG-2 AAC 中 TNS 及預測模組之探 討,八 十 八 年 六 月交通大學資工系碩士論文。

參考文獻

相關文件

本研究將針對 TFT-LCD 產業研發單位主管與研發人員進行 探討,並就主管於研發人員對職能重視程度作差異性分析。因此

由於 DEMATEL 可以讓我們很有效的找出各準則構面之因果關係,因此國內外 有許多學者皆運用了 DEMATEL

我們分別以兩種不同作法來進行模擬,再將模擬結果分別以圖 3.11 與圖 3.12 來 表示,其中,圖 3.11 之模擬結果是按照 IEEE 802.11a 中正交分頻多工符碼(OFDM symbol)的安排,以

而在利用 Autocloning 的方法,製作成金字塔形狀的抗反射 結構方面。分成非次波長結構和次波長結構來加以討論。在非次波長 結構時,我們使用

無線感測網路是個人區域網路中的一種應用,其中最常採用 Zigbee 無線通訊協 定做為主要架構。而 Zigbee 以 IEEE802.15.4 標準規範做為運用基礎,在下一小節將 會針對 IEEE

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

然而此電路最大的問題在於中間 Buffer 的困難度,因此我們使用了如圖 3.8 的架 構[5],圖 3.8 中我們將電流源設在內側,而 UP、DOWN 兩個開關設在外側,和圖 3.7

本研究為了將結構物內的牆以不同單位重來做比較,在計算每棟