國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
意老百姓怎麼想。
第三節 分析方法
一、平均數檢定(林惠玲、陳正倉 ,2001;McClave, 1991)
平均數檢定是對所觀察的現象間的平均數是否存在差異進行分析的方法,以 隨機且獨立的抽取兩個常態分配之母體樣本,來比較兩個母體的平均數是否相同,
根據檢定方法可區分為獨立樣本右尾 T 檢定和配對樣本雙尾 T 檢定等兩種假設檢 定方法,詳細說明如下:
(一)獨立樣本右尾 T 檢定
樣本為抽自兩獨立母體,且其兩母體變異數(σ12,σ22)未知,故需先檢定σ12
是否等於σ22,其檢定結果使得 T 分配之自由度有所不同,而該檢定之假設建立、
拒絕域、檢定統計量和決策法則如下述:
1. 假設建立
0 2 1
0:u u d
H − ≤
,
0 2 1
1:u u d
H − >
,
u 為第 1 個母體的平均數,1 u 為第 2 個母體的平均數。 2
2. 拒絕域(顯著水準為 下)
(1)若σ12=σ22,則C ={t|t>tα(n1+n2 −2}
,
(2)若σ12 ≠σ22,則C={t|t >tα(v)}
,
其中n 為第 1 組樣本的個數,1 n 為第 2 組樣本的個數, 2
‧
‧
主成份分析(Principle Component Analysis, PCA)主要目的為訂定指標的依據,
他是對多個變數決定各變數權重而成的加權平均,依此定義出總指標。主成份分 析是由皮爾森(Pearson)於 1901 年提出,再由侯特齡(Hotelling)在 1933 年發展的 一種新方法,主要功能為將資料簡化,將多個有相關性的變數簡化成少數幾個沒 有相關的變數。主成份分析能將資料簡化,經由線性組合而得的主成份能保有原 來變數最多的資訊,即擁有最大變異數,顯示出最大的個別差異,而主成份分析
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
除了用來概述變數之間的關係,也可用來削減迴歸的變數數量,可進一步提供有 用的分析結果。
所謂的主成份是尋找一組變數的線性組合,一方面要保有原來的變數資訊 (代表性),而且主成份當中不能重疊資訊(精簡性),更重要的是以少數幾個主成 份代表多個變數,目的為達到三個目標分別為代表性、獨立性和精簡性。
三、決策樹分析(謝邦昌,2001;Breiman, 1984)
決策樹又稱為分類樹,用樹枝狀展現資料受各個變數影響之情形的預測模型,
會根據目標變數產生之效應的不同建構出不同的規則,為資料採礦中的分類分析 (Classification Analysis)方法之一,可進行連續型和類別型變數之分類預測。接下 來介紹決策樹分析法中的C&R Tree方法與QUEST方法:
(一.)決策樹概述
決策樹(Decision Tree)的概念為藉由分類已知的項目,將資料分成不同種類,
並從中歸納存在事例中的規律,而其所建構的決策樹亦可用於樣本外的預測。
在決策樹所建造的樹狀結構圖中,每一個內部節點都代表對某屬性的測試,
而節點下的每個分支代表此屬性可能值的集合,最後的每一個葉節點所對應的是 一個目標類別。圖3-1為決策樹基本構造,詳細介紹如下:樹的中間節點 (Non-Leaf Nodes) 代表測試的條件;樹的分支 (Branches) 代表條件測試的結果;樹的葉節 點 (Leaf Nodes) 代表分類後所得到的分類標記,也就是表示分類的結果。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖 3-1 決策樹的構造
傳統決策樹的根部於頂端,當欲進行決策樹分析之資料由根部進入後,會應 用測驗方法進入下一層的某個子節點中;不同演算法會採以不同的測驗方法,但 降低子節點內的凌亂度,是選擇測試屬性的共同目標。如此不斷重複其演算過程,
直到資料達葉部節點為止。
若資料不完整或含有雜訊時,其所建構的決策樹可能會產生過度配適之情形,
則所建構之樹狀結構就會過於複雜。通常導致過度配適的原因有二種,一為樣本 本身的屬性太多,即過多的解釋變數,決策樹易選擇到和目標不相關的屬性;二 為偏移(Bias),不同的演算法在尋找測試屬性時,都有自己的偏好,因此在篩選 時會依其演算法之偏好屬性進行建構決策樹,而非真正和目標相關的屬性,所以 在建構決策樹之後需要進行修剪樹狀結構之動作。
(二.)C&R Tree
C&R Tree(Classification and Regression Tree),稱為分類迴歸樹,即CART演 算法,是Breiman在1984年提出。當我們的目標變數是定類變數,為分類樹;若 目標變數是定距變數,則為迴歸樹。它是以迭代的方式,從樹根開始反覆建立二 叉樹,直到數節點中的同質性達到某個標準,或觸發迭代終止條件為止。
最初,C&R Tree通過檢測輸入欄位,通過度量各個劃分產生的異質性的減 少程度,找到最佳的一個劃分。它可以自動忽略對目標變數沒有貢獻的屬性變數,
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
也為判斷屬性變數的重要性,減少變數樹木提供3考,並且在面對諸如存在缺失 值、變數個數較多時C&R Tree顯得非常穩健。
估計模型通常不用花費很長的訓練時間,推理過程完全依據屬性變數的取值 特點(與C5.0不同,C&R Tree的輸出欄位既可以是數值型,也可以是分類型),C&R Tree比其他模型更易於理解─從模型中得到的規則能得到非常直觀的解釋,決策 推理過程可以表示成If、Then的形式。
C&R Tree的基本原理是藉由二元遞迴分割過程以處理資料,每一個節點將 針對資料屬性向下劃分為兩個資料子集,直到研究者所設定的停止條件被滿足為 止。而在決策樹生長的核心是確定決策樹的分枝準則,該準則通常涉及到兩方面 的問題:第一,如何從眾多的屬性變數中選擇一個當前的最佳分枝變數;第二,
如何從分枝變數眾多取值中找到一個當前的最佳分割點。C&R Tree切割點的選 取準則為每個節點的異質性(Heterogeneity)高低;目前有許多種指標可供使用,
通常以Gini Index為最常用的指標之一。假若集合T包含N個類別的記錄,那麼其 Gini Index計算方式為:
Gini(T) = 1 − � 𝑝𝑝𝑗𝑗2 𝑛𝑛
𝑗𝑗 =1
其中𝑝𝑝𝑗𝑗為j類別出現的頻率。如果集合T分成兩部分N1和N2,則此分割的Gini為:
Gini𝑠𝑠𝑝𝑝𝑠𝑠𝑠𝑠𝑠𝑠(T) =N1
N Gini(T1) +N2
N Gini(T2)
在分割的過程中,C&R Tree會先檢查檢點中的資料是否屬於同一個類別,
若節點中的資料只屬於同一個類別,則此節點不需再分隔;若節點中仍有兩個以 上的類別時,則C&R Tree會測試所有的資料屬性,依據屬性值將資料分隔成兩 個子集合,並計算每種屬性分割下的Gini𝑠𝑠𝑝𝑝𝑠𝑠𝑠𝑠𝑠𝑠之值,最小的Gini𝑠𝑠𝑝𝑝𝑠𝑠𝑠𝑠𝑠𝑠就被作為分割 的標準。若Gini值越大時,則該切割點所產生的子節點中的組成樣本也越單純,
即該切割點判別分類差異的能力越好,所以誤判率也相對較低。決策樹要決定末 端節點所屬於的類別時,以計算該末端節點中各類別所包含的資料數目多寡為準
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
則,選取個數最多的類別作為該末端節點的類別。又因為樹的最下層的每一節點 皆是末端節點,因此,進一步計算每個節點的誤判率,作為決定該節點是否需要 繼續細分下去或是要修剪的準則。而在分割中若滿足下一個條件即停止:節點達 到完全純性、節點中樣本的所有屬性變數有相同的取值、樹的深度達到用戶指定 的深度、節點中樣本的個數少於用戶指定的個數、異質性指標下降的最大幅度小 於用戶指定的幅度。當樹的建構程序完成後,則此樹狀結構稱之為最大樹。
(三.)決策樹 QUEST(謝邦昌、鄭宇庭、蘇志雄,2009)
是由 Loh 和 Shih 於 1997 年提出建立決策樹的二元分類方法,QUEST 演算 法主要涉及分支變數和分割值卻力的問題,但它將分支變數選擇和分割點選擇以 不同的策略進行處理,其運算過程也較 C&R Tree 有效,而執行 QUEST 模型時 有幾項要求,首先輸入變數分為類別型變數和數值型變數,而輸出變數必須是二 元分類變數,若模型當中涉及到順序變數時先儲存成數值變數才可進行,且模型 中不可應用權數變數。
QUEST 的分類規則為假設目標變數為連續型變數,則使用統計上的 ANOVA F 分析,假設目標變數為類別型變數則使用統計上的卡方檢定,選擇 p-value 最 小且小於顯著水準之變數做為當前的最佳分支,若最小的 p-value 未小於顯著水 準,在 ANOVA F 檢定中代表在顯著水準下目標變數不同分類下的屬性變數的平 均值不存在差異性,此時應利用 Levene’F 檢驗其方差,選擇方差齊性最不顯著 的變數做為當前的分支變數,否則該樹節點即無法再分支。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第肆章 實證分析
第肆章將區分成三小節,首先第一小節為探索性分析,主要透過問卷資料中 的問題探討是會影響選舉造勢的參與意願,第二小節為主成份分析,目的為把問 卷中各個面向的資料進行維度縮減,找出問項中的線性組合代表該面向的指標,
並根據該指標討論與目標變數之關聯,第三小節會使用平均數檢定,根據各個主 成分的變數結果,討論在不同的參與意願之下,主成分的表現是否有所差異,第 四節為決策樹分析,探究在何種條件下受訪者會願意參與競選造勢活動。