離散餘弦轉換 - 第二節聲音訊號之特性

4.4.1 簡介

轉換的目的是在於將原本時域當中不易或無法解決的問題轉移至另一個領域(例如傅立葉轉換後的頻域或是小波轉換後的時間拓展域)來使得問題更易於處理，一般說來我們希望轉換具有以下三種特性：

1.相關性的變換與打散，這是希望能夠把大部分的能量與特徵集

中在極少數的轉換係數上，進而能達成消除原空間的冗餘性。

2.適當的基底函數，透過選擇與數位訊號本身契合的基底，可以使得轉換後的結果即使經過逆轉換而回復至原值域的失真性最低。並且使得兩個值域的運算都可以成立。像是目前所發展出來的 KL 轉換 (Kaehunen Loe’ve Transform)雖然號稱是所有轉換當中最佳的一個，也常被用來判斷一個轉換的優劣，但是因為其沒有獨立的基底函數，故其實際價值並不高。

3.轉換的準確性與複雜度：對於同樣大小的 samples 點數，我們希望採用的是一個複雜度最低而準確性最高的轉換，然而兩者本身即是一種取捨（trade off），而對於要同時滿足對複雜計算效率精確性和即時性的要求的轉換法於本研究當中是十分重要的。我們考慮所考慮的轉換有離散傅立葉變換和離散餘弦轉換。分別簡介如下：

離散傅立葉變換(DFT)允許在頻域當中表示所有訊號，即使是小於 1 秒鐘的訊號亦可。而其傅立葉頻率分量更比其他指數型級數能夠有效的描述語音訊號。但是計算 DFT 會利用到許多的乘法與加法，

快速傅立葉變換則能夠有效的減少其運算複雜度，以 1024 個點的 DFT 與 FFT 作比較，其計算量可以減少約 200 倍。

離散餘弦變換(discrete cosine transform，DCT)簡稱 DCT。是任何連續的實對稱函數的傅立葉變換（fourier transform）中只含餘弦項的正交轉換，因此餘弦變換與傅立葉變換一樣具有明確的物理量意義。

它在一些訊號處理的應用上特別地有用。因為此轉換可以把把二維影像資料或是一維聲音資料由空間定義域 (space domain) 轉換到頻率定義域 (frequency domain)，使得資料的特性（例如對稱性，頻率分佈，能量集中度）可以透過不同的頻率域彰顯出來，以利我們作資料

的分析。（例如探討每個頻率下的訊號能量變更），例如語音域視頻的

DCT 的形式就如同上面（4-3）（4-4）兩個式子的形式，它的基底序列φ_k[ ]n 為餘弦函數所構成。因餘弦具週期性而且偶對稱的函數，在合成方程式（4-5）中的x n[ ]在

0≤ ≤n (N−1)的範圍之外將會具有週期性和對稱性。換句話說，

正如同 DFT 有週期性的特性，DCT 也同時具有週期性和偶對稱性的特性。DFT 表現有限序列的方式為先組成週期性的序列，從該週期性的序列中我們可獨一無二地還原出該有限長度的序列，然後用週期性的複數指數函數來作拓展的動作。在 DCT 對應一個有限長度序列來組成一個週期且對稱的序列時，亦可用類似的方式來達成。而且原來的那個有限長度的序列可以被獨一無二的還原回來。因為要達成這個目標的方法有很多種，所以 DCT 的定義也有許多個（8 個）。其中以它的第一（DCT-1）、第二種類型（DCT-2），最常被訊號處理和圖像處理所使用，用於對訊號和圖像(包括靜止圖像和動態圖像)進行有損耗形式之數據壓縮。這是由於離散餘弦變換具有很強的"能量集中"的特性:大多數的自然訊號(包括聲音和圖像)的能量都集中在離散餘弦變換後的低頻部分，而且當訊號具有接近馬爾科夫過程(Markov processes)的統計特性時，離散餘弦變換的去相關性接近於 K-L 變換 (Karhunen-Loève 變換--它具有最優的去相關性)的性能。

例如，在靜止圖像編碼標準 JPEG 中，在運動圖像編碼標準 MJPEG 和 MPEG 的各個標準中都使用了離散餘弦變換。在這些標準制中都使用了二維的第二種類型離散餘弦變換，並將結果進行量化之後進行熵編碼。這時對應第二種類型離散餘弦變換中的 n 通常是 8，並用該公式對每個 8x8 塊的每行進行變換，然後每列進行變換。得到的是一個 8x8 的變換係數矩陣。其中(0,0)位置的元素就是直流分量，矩陣中的其他元素根據其位置表示不同頻率的交流分類。

一個類似的變換，改進的離散餘弦變換被用在高級音頻編碼 (AAC for Advanced Audio Coding)，Vorbis 和 MP3 音頻壓縮當中。

而在本論文當中對於由時域分析轉換至頻域分析時之轉換所採測（subjective quality measure）這是由人來聽，以評量其品質。一是客觀的品質量測（objective quality measure），這是從訊號中計算噪音成分的多少所得來的，噪音成分越少表示聲音的品質越好。但是有時候客觀的量測並不準確，因為噪音的成分多寡並非完全決定了語音品質的好壞，而必須如同前面所說的必須端看此時噪音的組成頻率和能

在文檔中第二節聲音訊號之特性 (頁 23-27)