第三章 建立最大相似度線性迴歸調適法的迴歸分類樹
3.3 由下而上的迴歸分類樹建立方法
由 3.2 節中,我們提出了由上而下的二元分裂法(Top-down binary splitting),
其可以提供一個自動化的方法建立迴歸分類樹。以由上而下的二元分裂法產生的 結果來看,可能會有些資料,其實在性質上接近,但是在一開始較少群數的分群 時,被分裂至不同的子樹,而在分類樹的架構中分離的很遠。如圖 3-1 中的迴歸 分類樹例子所示,(2-1)類和(1-1-2)類這兩個分類在空間上的分佈很接近,但是在 Iteration 1 時,這兩類的資料就被分在不同的兩個子節點(2)和(1),而最後產生的 迴歸分類樹中,(2-1)類的節點對 (1-1-2)類的節點的路徑距離為 5,反而在空間中 離(2-1)類較遠的(2-2-1)類,路徑距離只有 3,類似這種情形的特殊例子,會讓迴 歸分類樹中的某些節點,無法真正的表示出其在空間上的關係。這也是使用二元 分裂法(binary splitting)來建立樹狀結構所無法避免的問題。因此我們提出了由下 而上的二元合併法(Bottom-up binary merging)來建立迴歸分類樹,此法基於 3.1 節中介紹的由上而下的二元分裂法所產生的分類結果,加以調整,以求能建立更
具代表性的迴歸分類樹。
Iteration 1 Iteration 2
1 2 1-1 2
Iteration 3
Iteration 5 1-1-1 1-1-2 2-2-1 2-2-2
1-1 1-2 2-1 2-2
1 2
Regression Class Tree
Root
圖3-1 使用Top-down binary splitting方法對資料作二元分割過程及最後產生的 迴歸分類樹。
首先我們會先利用 3.2 節中提出的 Top-down binary splitting 方法,對隱藏式 馬可夫模型中要分類的高斯混合元件參數作處理,決定出要分類的群數和分類結 果。因 Top-down binary splitting 方法所產生的樹狀結構可能產生一些無法真正表 示分類在空間中關係的問題,因此我們將分類的結果,利用由下而上的方法,將 性質接近的分類節點加以合併,並記錄其關係,直到所有節點資料都合併成一個 根節點,來以重建出迴歸分類樹的架構。要合併的分類節點的選擇標準我們一樣 是採用了計算 BIC 數值來比較。其建立的方法如以下步驟:
1. 初始化,將使用 Top-down binary splitting 決定的分群輸入,建立各 Base class 節點C1,C2,...,CN。
2. 對所有的節點的資料,對每兩節點的資料合起來計算 )
,
(GMM1 GMM2
∆BIC 數值,建立對照表記錄任兩節點資料的
) ,
(GMM1 GMM2
∆BIC 數值。
3. 對所有的∆BIC(GMM1,GMM2)數值,找出最大值,即表示該兩節點的 資料最適合以單群來表示,故將此兩節點加以合併成單一節點。
4. 合併之後,節點總數N = N −1,更新記錄任兩節點資料的 )
,
(GMM1 GMM2
∆BIC 數值的對照表。
5. 如果N ≠1,回到第 3 步驟。如N =1表示所有節點已合併至根節點 (Root),表示建立完成。
經過以上步驟,就可以將分群好的節點C1,C2,...,CN依 BIC 的判斷,將適合 合併為一群的節點依序合併,直到只剩根(Root)節點,即可依此建立起迴歸分類 樹的架構,且建立好的迴歸分類樹中的節點距離,較 Top-down binary splitting 的 方法更具有空間上代表性。如以圖 3-2 的例子中,是以圖 3-1 的 Top-down binary splitting 的結果作為初始值,再以 Bottom-up binary merging 方法加以調整的結 果,在圖 3-1 中原本距離為 5 的(2-1)類和(1-1-2)類的節點,在經過調整之後的距 離為 2,表現了這兩類在空間中的相似性。因此以 Bottom-up binary merging 方法,
可以建立較好的階層式架構,較能代表資料在實際空間的關係。
Iteration 3 B2 B3
1-2
1-2 1-1-1 B1
2-2-1 2-2-2
1-2
2-1 1-1-2
Iteration 1 Initial
1-1-2 2-1
2-2-1 2-2-2 B1
1-2 B2
1-1-1 B3
B4
Root
Regression Class Tree
1-1-1 2-2-2
2-2-1
圖3-2 利用Bottom-up binary merging方法將圖3.1的結果作調整的過程以及最 後重新建立的迴歸分類樹。