第四章 實驗結果與分析
4.1 建立收寄量預測模型
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第四章 實驗結果與分析
本章將說明郵局收寄量預測模型的建立過程,資料探勘技術的評估,以及實驗結果 的整理及分析。
4.1 建立收寄量預測模型
在建立郵局收寄量預測模型的過程中,首先選擇採用何種資料採礦技術。Microsoft 提供決策樹、線性迴歸、關聯規則等九種技術,而本論文選擇貝氏機率分類、類神經網 路、邏輯迴歸等三種做為分析工具,並分析何者適用於建立收寄量預測模型。下面以「類 神經網路分析所有郵件收寄量」為例,說明預測模型建立方式與預測結果。
圖13:資料採礦精靈「選擇資料採礦技術」
如圖 13,選擇以「類神經網路」技術建立資料探勘模型後,需要指定輸入參數的角 色,分為索引鍵,輸入,可預測三種。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
如圖 14 以本預測模型為例:中華郵政郵務局號為索引鍵,不可重複,不當作輸入 參數影響結果;建物人口數、人口成長率、重要路口距離、重要路口等級、競爭者設點 數作為輸入參數,不可預測;所有郵件收寄量作為可預測的輸出參數,亦即最後欲產生 的預測結果。此為最典型的預測結構。
圖14:資料採礦精靈「指定定型資料」
本預測模型以中華郵政公司在台北縣市共 308 家郵局設點資料作為輸入參數,以此 建立預測模型。為了避免過度學習的問題,因此,在類神經網路裡需要一組新的樣本來 驗證權重修正的正確性,這組資料稱為鑑效組,這組資料不會用來訓練類神經網路,只 是 用 它 來 驗 證 類 神 經 權 重 修 正 的 正 確 性 。 如 圖 15 所 示 , 目 前 該 軟 體 中 使 用 HOLDOUT_PERCENTAGE 此參數來指定隨機抽取多少百分比的樣本來作為鑑效組,預 設值為 30。[16]
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖15:資料採礦精靈「選擇測試資料百分比」
設定好資料探勘模型相關參數後,即可處理資料採礦模型,將專案部署到 SQL Server 上,以利後續分析及預測,如圖 16。
圖16:處理資料採礦模型
預測模型建立完成後,若最後欲產生的預測結果為類別變數,所得結果即為增益 圖;若最後欲產生的預測結果為連續變數,所得結果則為散佈圖,如圖 17。研判此次抽
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
樣後建立之模型的區辨度。分數越接近 0,區辨度越差;分數越接近 1,區辨度越佳,
就表示模型預測力越高。
圖17:資料採礦模型散佈圖
最後如圖 18 左,將村里建物重心環域資料套用在已建立之預測模型上,設定索引 值及五個輸入參數的對應欄位,即可得到各點的預測收寄量,如圖 18 右。
圖18:村里建物重心預測收寄量
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University