• 沒有找到結果。

由上而下的迴歸分類樹建立方法

第三章 建立最大相似度線性迴歸調適法的迴歸分類樹

3.2 由上而下的迴歸分類樹建立方法

基於 3.1 節所介紹的 Centroid splitting 迴歸樹建立方法,需要以經驗或是多 次的試驗後才能決定要使用的基底分類數目,我們認為在實際應用上並不方便,

且如果基底分類的數目選擇不當,可能會使得辨識系統的準確率較為低落。因 此,我們提出了一個由上而下的二元分裂法 (Top-down binary splitting) 來建立迴 歸分類樹,其使用了 BIC (Bayesian Information Criterion, 貝氏資訊基準)【21】

【22】,來自動決定迴歸分類的數量,產生具確定性(Deterministic)的迴歸分類 樹,而不需人為判斷的介入。

BIC 可對模型的相似度(likelihood)和模型複雜度間作衡量,以決定適合用來 估計資料的模型。其一般定義如下:

d N likelihood

M

BIC( d)=−2⋅log +(log )⋅ (3.1) 方程式(3.1)中 M 代表模型種類,likelihood 為資料對此模型的相似度,N 為 資料個數,d 為模型的參數個數,參數個數愈多,表示模型愈複雜。

方程式(3.1)的第一項為此模型(model)對資料(data)的相似度(likelihood),相 似度愈大表示此模型對資料分佈的描述愈好,但以最極端的例子來說,如果我們 把每一個資料都用一個模型去估計(approximate),那麼得到的 likelihood 就會是

最大了,但是這些模型複雜度會非常高,就失去了用模型來估計資料的意義。因 此式子(3.1)加上了第二項的複雜度懲罰(penalty)部分,我們期望得到較為簡單合 適的模型來估計資料分佈,因此對於較複雜的模型,我們施以較多的 penalty,

以避免選擇到一個過於複雜的模型,而計算出的 BIC 數值愈小,就代表對這群

以迭代(iterative)的方式調整Θ,以求得log(likelihood(X |Θ))的最大值。

訓練完成後的高斯混合模型,我們將每筆資料,計算其和每個高斯混合元件 的相似度,求出相似度最大的高斯混合元件 i,將資料標記成第 i 群,以將所有 資料分成 K 群。我們使用了 K=1 和 K=2 的高斯混合模型,稱為GMM1GMM2, 分別可以將所有資料分成 1 群和 2 群。

我們使用了∆BIC(GMM1,GMM2)來當成我們判斷的基準。首先對於要分類 的所有資料,以GMM1GMM2加以估計,並計算BIC(GMM1)和BIC(GMM2),

) (GMM1

BIC 表示資料以分成單群的模型來估計的合適度,BIC(GMM2)則表示 資料以分成兩群的模型來估計的合適度。我們再以此計算

) ,

(GMM1 GMM2

BIC ,如∆BIC(GMM1,GMM2)>0,表示此群資料較適合以單 群來表示,反之,如∆BIC(GMM1,GMM2)<0則表示此群資料較適合以分成兩群 來表示。

有了這個判斷方法後,我們把隱藏式馬可夫模型中要分類的高斯混合元件的 平均值向量當成資料,將原有之 Centroid splitting 的迴歸分類樹建立方法加以改 良,基本的步驟如下:

1. 初始化,將所有資料點分配至同一節點 R(root),設節點 R 為可分裂點。

2. 選擇任一可分裂點作為節點 P。如所有節點都為不可分裂節點時則停 止,表示建立完成。

3. 對於 P 節點所包含所有的資料 X,分別以GMM1GMM2模型來估計,

並計算∆BIC(GMM1,GMM2)值。

4. 如∆BIC(GMM1,GMM2)>0,表示資料 X 較適合以單群表示,故節點 P 不需分裂,將節點 P 設為不可分裂點,並回到步驟 2.。

5. 如∆BIC(GMM1,GMM2)<0,表示資料 X 較適合分成兩群,以GMM2

型所估計的結果對資料作分群成 X1 和 X2。

6. 產生兩個子節點 C1 和 C2,其分別包含資料 X1 和資料 X2,記錄節點 P 之子節點為 C1 和 C2,節點 P 設為不可分裂,C1 和 C2 設為可分裂節 點。

7. 回到步驟 2.,直到所有節點都為不可分裂節點時停止。

由此法我們可以看到,並沒有需要人為判斷或靠經驗設定的地方,此演算法 會將資料不斷分裂,直到每一群的資料都無法分裂為止,即自動決定了分群的數 目,而且最後的分群結果中的每一群資料,都代表了該群資料都不適合再細分成 兩群。

相關文件