根據上一節所述,當我們選定碼本的大小 M 之後,使用 K 中心的方 法可以幫助我們找到代表13維特徵向量的碼本。但是,如果想直 接對這個13維的特徵向量作向量量化,會遇到以下的因難:
一.當我們將碼本大小設成一般的大小時,例如 M=256,因為 特徵向量多達13維,因此這樣的向量量化會造成最後的精確 度不佳;也就是說,所找出來的碼本向量代表性不足、不“像
”原先的向量。
二.若想讓精確度變大,最直接的方式就是加大碼本的大小。不過
,因為向量的維度多達13維,加大碼本的大小會使得訓練碼 本的工作太過繁雜,因此加大碼本的大小實際上並不可行。
在上面兩點的討論中,說明了不能直接對13維的特徵向量做量化 的原因,乃是在於其維度太大之故;如果是維度較小的向量,不用 太大的碼本大小,就可以做到不錯的準確度。所以為了避免上面所 提到的問題。所以我們應該設法減小向量維度的大小。一個可行的 方向是:我們可以把13維的特徵向量切成數個維度比較小的向量
,然後再對這些比較小的向量分別作向量量化,最後再把量化後所
得到的小向量結合起來,還原成13維的向量。 這樣的作法有別 於原來的直接作向量量化,因此,我們給這樣的作法一個新的名 稱,叫做分割式向量量化(Split Vector Quantization)。
那麼我們該怎麼樣分割這13維的特徵向量呢?從對這13維特徵 向量的基本了解可以給我們一些提示:
一. 13維的特徵向量包括12維的梅爾倒頻譜係數,另外再加上 能量頻譜係數。由於能量頻譜係數取對數值的關係,所以數值 的大小並不如其他12維來得大,在做向量量化的時候,應該 單獨對這項去做量化。
二. 梅爾倒頻譜係數的特性:每個音框所求出的23個梅爾倒頻譜 係數,任兩個係數若愈靠近,兩者之間的相關性(Correlation)
會愈大;反之,若愈逺離,兩者之間的相關性會愈小。例如:
假設我們把所取出的第K 個梅爾倒頻譜係數記做 CK,那麼,
CK和CK-1或是CK和CK+1的相關性會比CK和其他的梅爾倒 頻譜係數的相關性來得高。因此,我們可以把13維特徵向 量中較靠近的梅爾倒頻譜係數取出,做成一個維度較小的特 徵向量。
由以上的基本了解,並參照 ETSI 所制定的標準,我們決定了13維
13維的特徵向量還具有另一個特性:次序比較前面的梅爾倒頻譜 係數對於辨識來說比較重要;也就是說,如果m>n,那麼Cm在 辨識上的重要性會大過Cn。因此,對於次序比較小的子特徵向量,
我們可以設法突顯其重要性以取得較佳的辨識效果。這樣的重要性 其實可以反應在給每一個子特徵向量的碼本大小上,我們可以給次 序比較小先的子特徵向量一個較大的碼本,而給次序比較後的子特 徵向量一個較小的碼本:因為如前面所提到的,加大碼本的大小能 使向量量化的精確度提高;若加大某個子特徵向量的碼本大小,在
向量量化後該子特徵向量在原來13維特徵向量的部分會愈趨近於 未量化前的該部份;若加強的部分恰好是對辨識較重要的部分,那 麼可預期的,量化後的辨識效果和量化前的辨識效果比較不會有太 大的差別。給定各個子特徵向量不同的碼本大小,除了上述的好處 以外,另外還可以讓無線通訊的頻寬有效的被使用―-這是因為無 線通訊的頻寬有限,故每一秒我們所能傳輸的位元數也是有限的;
為了維持一定的辨識正確率,我們應該在可用的位元中分配多一些 給對辨識較重要的部分,也就是給較重要的子特徵向量較大的碼本
。在本章後面實驗的部分,我們會用不同的碼本大小組合進行實驗
,並從中論證以上所述。