• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

第四節 決策樹分析

本研究認為不同地區的生活行態與文化環境和反應變數(是否願意參與競選 造勢)有顯著的差異,從第一節的探索性分析當中發現,不同的地區表現影響是 否願意參與競選造勢活動,因此在建構決策樹之前,將樣本區分為「都市」和「非 都市」兩筆資料,都市包含核心都市和一般都市,而非都市包含新興市鎮、傳統 產業市鎮、一般鄉鎮和高齡暨偏遠鄉鎮,之後分對這兩筆資料樣本建構決策樹,

目的為增加模型的解釋能力。圖 4-14 為都市與非都市的參與意願比例,觀察發 現非都市民眾有 24.31%的受訪者比例願意參加選舉競選造勢活動,而都市民眾 的參與意願較低僅有 17.66%。

圖 4-14 都市與非都市的比較

接下來的分析將資料區分為都市以及非都市樣本分別建模,詳細的模型串流 如圖 4-15,首先使用 Select 節點將樣本區分為都市以及非都市,下一步使用 Filter 節點進行變數過濾,接下來用 Type 節點定義變數屬性,為了能驗證模型的好壞,

利用 Data Partition 節點來產生訓練集資料(Training Data)和測試集資料(Testing Data),做為檢驗模型的配適結果。決策樹分類之前需先進行抽樣,由於樣本比 例不均衡,決定使用過度抽樣(Oversampling)方法,使用 Generate 節點產生一比 一的樣本進行決策樹分類。

24.31%

17.66%

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

非都市 都市

願意

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4-15 模型串流

表 4-14 為決策樹分類所使用的變數整理,目標變數為是否願意參與競選造 勢,而輸入變數一共五大類分別為基本資料、傳播媒體、社交行為、個人特質和 公民素養。

表 4-14 模型輸入變數整理 目標變數

是否願意參與競選造勢 輸入變數

基本資料 傳播媒體 社交行為 個人特質 公民素養

地區 傳播_1(報紙) 社交行為總指標 個人特質總指標 公民素養總指標 性別 傳播_2(網路新聞) 社交依賴被動性 謹慎思考性 政府信任度

年齡 傳播_3(雜誌) 社交封閉性 樂觀取向性

婚姻狀況 傳播_4(廣播) 生活滿意度 教育程度 傳播_5(電視)

子女個數 行業 每月平均收入

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

一、決策樹:都市

首先從 2,000 筆有效樣本當中選出地區為都市的受訪者一共 1,025 人,使用 決策樹方法 QUEST、C&R Tree、CHAID 和 C5.0 等四種方法建構,由圖 4-16 可 發現決策樹 QUEST 的表現最佳,從測試集資料中其正確判斷率為 85.58%,是所 有方法當中最高的,且根據 AUC(Area Under Curve)的結果為 0.848 表現良好,

具有顯著的預測解釋能力。

圖 4-16 決策樹測試集資料比較(都市)

最後選擇決策樹 QUEST 節點,詳細的串流如圖 4-17 所示,在樣本節點後方 連接決策樹 QUEST 節點,執行之後輸出金塊結果。

圖 4-17 決策樹 QUEST 節點

圖 4-18 為決策樹 QUEST 選擇的重要變數圖,明顯發現公民素養總指標(公 民素養主成份 1)的重要性遠遠超過其他解釋變數,其他重要變數包含看每週看報 紙頻率(傳播_1)、個人特質總指標(個人特質主成分 1)、每月平均收入、年齡和子 女人數。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4-18 決策樹 QUEST 重要變數圖(都市)

詳細的決策樹分類結果如圖 4-19 所示,從最後的分支點可觀察出,都市的 受訪者若其公民素養總指標(公民素養主成分 1)大於 0.617 有 85%的比例願意參 與選舉造勢活動,而公民素養總指標(公民素養主成分 1)小於等於 0.617 的有 87%

的比例不願意參與選舉造勢活動,決策樹當中公民素養總指標相當重要,意即都 市民眾對於政治的立場與態度,以及是否積極參與公共事務,決定了是否會願意 參與競選造勢活動,以都市民眾而言,平常生活當中的公民素養即可判斷,其他 外在條件像是基本資料、傳播媒體、社交行為或個人特質等變數的表現和公民素 養總指標相比之下並不明顯。

圖 4-19 決策樹 QUEST 模型(都市)

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

根據最後的測試集資料配適結果如表 4-15 所示,正確預測的結果為 285 人,

錯誤預測的結果為 48 人,而預測為不願意的人當中有 94%的正確比例,但在預 測願意的比例僅有 62%的預測正確率。

表 4-15 判斷矩陣表(都市)

測試集資料 預測結果

不願意 願意

真實結果 不願意 225 36

願意 12 60

從整體正確判斷率的結果顯示,訓練集資料和測試集資料的正確率差異不大,

無明顯的過度配適,且測試集資料的正確判斷率可達 85.59%,有顯著的預測效 果,詳細如表 4-16 所示。

表 4-16 正確判斷率(都市)

訓練集資料 測試集資料 正確比例 85.38% 85.59%

錯誤比例 14.62% 14.41%

二、決策樹:非都市

從 2000 筆有效樣本當中選出地區為非都市的受訪者一共 975 人,並使用決 策樹方法 QUEST、C&R Tree、CHAID 和 C5.0 等四種方法建構,在建構之前先 進行模型比較,由圖 4-20 顯示決策樹 C&R Tree 的表現最佳,在測試集的正確判 斷率而言表現最好其正確比例為 83.54%,從 AUC(Area Under Curve)的結果為 0.846,顯示具有良好的預測能力,之後選擇決策樹 C&R Tree 進行分類。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4-20 決策樹測試集資料比較(非都市)

最後選擇決策樹 C&R Tree 節點,詳細的串流如圖 4-21 所示,在樣本節點後 方連結決策樹 C&R Tree 節點,執行之後輸出金塊結果。

圖 4-21 決策樹 C&R Tree 節點

圖 4-22 為決策樹 C&R Tree 的重要變數整理,顯示公民素養總指標(公民素 養主成份 1)為最重要的變數,接下來重要程度依序為每周看電視的頻率(傳播_5)、

社交依賴被動性 (社交行為主成份 2)、看網路新聞頻率(傳播_2)等,顯示上述變 數對是否願意參與競選造勢活動有顯著關聯,接下來會選擇這些重要變數進行決 策樹 C&R Tree 的建構。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4-22 決策樹 C&R Tree 重要變數圖(非都市)

圖 4-23 為決策樹 C&R Tree 的預測結果,觀察非都市受訪者其公民素養總指 標(公民素養主成分 1)在 1.369 以上,有 98%比例的受訪者願意參與競選造勢活 動,若公民素養指標(公民素養主成分 1)介在 0.391 和 1.369 之間,且每週關注網 路新聞 1.5 次以下的受訪者有 82%比例願意參與競選造勢;相反的若其公民素養 總指標(公民素養主成分 1)小於 0.391 且每週看電視四天以上,有 89%的受訪者 比例不願意參與競選活動。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4-23 決策樹 C&R Tree 模型(非都市)

最後的判斷結果整理成表 4-17,在預測不願意參與競選造勢的當中正確率高 達 92%,表現十分突出顯示模型可正確辨別不願意參與競選造勢的特徵,但在預 測願意參選的樣本當中,預測能力較差。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

表 4-17 判斷矩陣表(非都市)

測試集資料 預測結果

不願意 願意

真實結果 不願意 207 34

願意 18 57

最後將整體的正確判斷率百分比計算如表 4-18,在測試集資料當中正確判斷 率為 83.54%,和訓練集資料的正確判斷率相比之下差異不大,無顯著的過度配 適,說明模型有良好的預測能力。

表 4-18 正確判斷率(非都市)

訓練集資料 測試集資料 正確比例 85.79% 83.54%

錯誤比例 14.21% 16.46%

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第伍章 結論與建議

第伍章為結論與建議,第一節將根據第四章實證分析的結果整理最後結論,

而第二節會依照結論擬訂建議,提供相關單位參考。

相關文件