由上而下的迴歸分類樹建立方法

第三章建立最大相似度線性迴歸調適法的迴歸分類樹

基於 3.1 節所介紹的 Centroid splitting 迴歸樹建立方法，需要以經驗或是多次的試驗後才能決定要使用的基底分類數目，我們認為在實際應用上並不方便，

且如果基底分類的數目選擇不當，可能會使得辨識系統的準確率較為低落。因此，我們提出了一個由上而下的二元分裂法 (Top-down binary splitting) 來建立迴歸分類樹，其使用了 BIC (Bayesian Information Criterion, 貝氏資訊基準)【21】

【22】，來自動決定迴歸分類的數量，產生具確定性(Deterministic)的迴歸分類樹，而不需人為判斷的介入。

BIC 可對模型的相似度(likelihood)和模型複雜度間作衡量，以決定適合用來估計資料的模型。其一般定義如下：

d N likelihood

BIC( _d)=−2⋅log +(log )⋅ (3.1) 方程式(3.1)中 M 代表模型種類，likelihood 為資料對此模型的相似度，N 為 資料個數，d 為模型的參數個數，參數個數愈多，表示模型愈複雜。

方程式(3.1)的第一項為此模型(model)對資料(data)的相似度(likelihood)，相似度愈大表示此模型對資料分佈的描述愈好，但以最極端的例子來說，如果我們把每一個資料都用一個模型去估計(approximate)，那麼得到的 likelihood 就會是

最大了，但是這些模型複雜度會非常高，就失去了用模型來估計資料的意義。因此式子(3.1)加上了第二項的複雜度懲罰(penalty)部分，我們期望得到較為簡單合適的模型來估計資料分佈，因此對於較複雜的模型，我們施以較多的 penalty，

以避免選擇到一個過於複雜的模型，而計算出的 BIC 數值愈小，就代表對這群

以迭代(iterative)的方式調整Θ，以求得log(likelihood(X |Θ))的最大值。

訓練完成後的高斯混合模型，我們將每筆資料，計算其和每個高斯混合元件的相似度，求出相似度最大的高斯混合元件 i，將資料標記成第 i 群，以將所有 資料分成 K 群。我們使用了 K=1 和 K=2 的高斯混合模型，稱為GMM₁和GMM₂，分別可以將所有資料分成 1 群和 2 群。

我們使用了∆BIC(GMM₁,GMM₂)來當成我們判斷的基準。首先對於要分類的所有資料，以GMM₁和GMM₂加以估計，並計算BIC(GMM₁)和BIC(GMM₂)，

) (GMM₁

BIC 表示資料以分成單群的模型來估計的合適度，BIC(GMM₂)則表示資料以分成兩群的模型來估計的合適度。我們再以此計算

) ,

(GMM₁ GMM₂

∆BIC ，如∆BIC(GMM₁,GMM₂)>0，表示此群資料較適合以單群來表示，反之，如∆BIC(GMM₁,GMM₂)<0則表示此群資料較適合以分成兩群來表示。

有了這個判斷方法後，我們把隱藏式馬可夫模型中要分類的高斯混合元件的平均值向量當成資料，將原有之 Centroid splitting 的迴歸分類樹建立方法加以改良，基本的步驟如下：

1. 初始化，將所有資料點分配至同一節點 R(root)，設節點 R 為可分裂點。

2. 選擇任一可分裂點作為節點 P。如所有節點都為不可分裂節點時則停止，表示建立完成。

3. 對於 P 節點所包含所有的資料 X，分別以GMM₁和GMM₂模型來估計，

並計算∆BIC(GMM₁,GMM₂)值。

4. 如∆BIC(GMM₁,GMM₂)>0，表示資料 X 較適合以單群表示，故節點 P 不需分裂，將節點 P 設為不可分裂點，並回到步驟 2.。

5. 如∆BIC(GMM₁,GMM₂)<0，表示資料 X 較適合分成兩群，以GMM₂模

型所估計的結果對資料作分群成 X1 和 X2。

6. 產生兩個子節點 C1 和 C2，其分別包含資料 X1 和資料 X2，記錄節點 P 之子節點為 C1 和 C2，節點 P 設為不可分裂，C1 和 C2 設為可分裂節點。

7. 回到步驟 2.，直到所有節點都為不可分裂節點時停止。

由此法我們可以看到，並沒有需要人為判斷或靠經驗設定的地方，此演算法會將資料不斷分裂，直到每一群的資料都無法分裂為止，即自動決定了分群的數目，而且最後的分群結果中的每一群資料，都代表了該群資料都不適合再細分成兩群。

在文檔中語音辨識中語者調適方法之研究 (頁 29-32)