第三章 建立最大相似度線性迴歸調適法的迴歸分類樹
3.2 由上而下的迴歸分類樹建立方法
基於 3.1 節所介紹的 Centroid splitting 迴歸樹建立方法,需要以經驗或是多 次的試驗後才能決定要使用的基底分類數目,我們認為在實際應用上並不方便,
且如果基底分類的數目選擇不當,可能會使得辨識系統的準確率較為低落。因 此,我們提出了一個由上而下的二元分裂法 (Top-down binary splitting) 來建立迴 歸分類樹,其使用了 BIC (Bayesian Information Criterion, 貝氏資訊基準)【21】
【22】,來自動決定迴歸分類的數量,產生具確定性(Deterministic)的迴歸分類 樹,而不需人為判斷的介入。
BIC 可對模型的相似度(likelihood)和模型複雜度間作衡量,以決定適合用來 估計資料的模型。其一般定義如下:
d N likelihood
M
BIC( d)=−2⋅log +(log )⋅ (3.1) 方程式(3.1)中 M 代表模型種類,likelihood 為資料對此模型的相似度,N 為 資料個數,d 為模型的參數個數,參數個數愈多,表示模型愈複雜。
方程式(3.1)的第一項為此模型(model)對資料(data)的相似度(likelihood),相 似度愈大表示此模型對資料分佈的描述愈好,但以最極端的例子來說,如果我們 把每一個資料都用一個模型去估計(approximate),那麼得到的 likelihood 就會是
最大了,但是這些模型複雜度會非常高,就失去了用模型來估計資料的意義。因 此式子(3.1)加上了第二項的複雜度懲罰(penalty)部分,我們期望得到較為簡單合 適的模型來估計資料分佈,因此對於較複雜的模型,我們施以較多的 penalty,
以避免選擇到一個過於複雜的模型,而計算出的 BIC 數值愈小,就代表對這群
以迭代(iterative)的方式調整Θ,以求得log(likelihood(X |Θ))的最大值。
訓練完成後的高斯混合模型,我們將每筆資料,計算其和每個高斯混合元件 的相似度,求出相似度最大的高斯混合元件 i,將資料標記成第 i 群,以將所有 資料分成 K 群。我們使用了 K=1 和 K=2 的高斯混合模型,稱為GMM1和GMM2, 分別可以將所有資料分成 1 群和 2 群。
我們使用了∆BIC(GMM1,GMM2)來當成我們判斷的基準。首先對於要分類 的所有資料,以GMM1和GMM2加以估計,並計算BIC(GMM1)和BIC(GMM2),
) (GMM1
BIC 表示資料以分成單群的模型來估計的合適度,BIC(GMM2)則表示 資料以分成兩群的模型來估計的合適度。我們再以此計算
) ,
(GMM1 GMM2
∆BIC ,如∆BIC(GMM1,GMM2)>0,表示此群資料較適合以單 群來表示,反之,如∆BIC(GMM1,GMM2)<0則表示此群資料較適合以分成兩群 來表示。
有了這個判斷方法後,我們把隱藏式馬可夫模型中要分類的高斯混合元件的 平均值向量當成資料,將原有之 Centroid splitting 的迴歸分類樹建立方法加以改 良,基本的步驟如下:
1. 初始化,將所有資料點分配至同一節點 R(root),設節點 R 為可分裂點。
2. 選擇任一可分裂點作為節點 P。如所有節點都為不可分裂節點時則停 止,表示建立完成。
3. 對於 P 節點所包含所有的資料 X,分別以GMM1和GMM2模型來估計,
並計算∆BIC(GMM1,GMM2)值。
4. 如∆BIC(GMM1,GMM2)>0,表示資料 X 較適合以單群表示,故節點 P 不需分裂,將節點 P 設為不可分裂點,並回到步驟 2.。
5. 如∆BIC(GMM1,GMM2)<0,表示資料 X 較適合分成兩群,以GMM2模
型所估計的結果對資料作分群成 X1 和 X2。
6. 產生兩個子節點 C1 和 C2,其分別包含資料 X1 和資料 X2,記錄節點 P 之子節點為 C1 和 C2,節點 P 設為不可分裂,C1 和 C2 設為可分裂節 點。
7. 回到步驟 2.,直到所有節點都為不可分裂節點時停止。
由此法我們可以看到,並沒有需要人為判斷或靠經驗設定的地方,此演算法 會將資料不斷分裂,直到每一群的資料都無法分裂為止,即自動決定了分群的數 目,而且最後的分群結果中的每一群資料,都代表了該群資料都不適合再細分成 兩群。