資料探勘簡介

第二章文獻探討

2.2 資料探勘簡介

在 Microsoft SQL Server 2008 Analysis Services 中，此演算法使用貝氏定理但卻沒有考量變數之間可能存在的相依性，因此其假設被視為「Naive」（亦即天真之意）。此演算法比其他 Microsoft 演算法更少計算，因此能夠快速產生資料採礦模型，對於用來分析輸入資料行和可預測資料行之間的相關聯性很有用。但因僅適用於類別變數，需根據變數類型決定是否可採用。

貝氏機率分類的優點如下：

(1) 計算速度最快的演算法。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

(2) 規則清楚易懂。

(3) 獨立事件的假設，在大多數問題上不至於發生太大偏誤。

貝氏機率分類的缺點如下：

(1) 僅能適用於類別變數。

(2) 僅能應用於分類問題（預測類別變數）。

(3) 假設變數間為獨立互不影響，因此使用時須要謹慎分析變數間的相依性。[14]

2. 類神經網路（Neural Network）

人類大腦的結構包括了幾個主要的單元：

(1) 神經核（Soma）：神經元的中央處理單位，將輸入的資料作加總後再進行非線性轉換。

(2) 軸突（Axon）：神經元中負責把神經脈衝從細胞體往外傳遞的神經纖維。

(3) 樹突（Dendrites）：神經元中負責把神經脈衝傳遞至細胞體的神經纖維。

(4) 突觸（Synapse）：神經元之間的聯結機制，稱為權重值。

圖3：類神經網路單元之模型[3]

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

類神經網路神經元的組成是仿傚人類神經元的結構，其結構如圖 3，其中X 就是輸_i 入變數值，而w 則是輸入變數的權重，_ij X 乘上_i w 就等於外部輸入的神經脈衝，但是在_ij 通過樹突時，累加神經脈衝必須大於門檻值，才能夠傳遞至神經元。對於神經元來說，

所有的輸入訊號可以用下式來表示：

j i ij j

Y  f ^ X w  ^







其中Y 　_j 表示前端神經元的輸出值， f 為轉換函數，X 表示輸入值， _i w 表示權重值，_ij

而_j　表示該神經元本身的門檻值。[3]

如圖 3，當脈衝通過樹突進入神經元後，神經元會透過加總函數把所有的神經脈衝累加，必須達到門檻值，訊息才會透過轉換函數（Activation Function）的方式，產生新的神經脈衝（Y 　_j ）向外傳遞。

將神經元彼此連結就構成了類神經網路架構，也就是一個神經元的輸出可以變成下一個類神經網路的輸入脈衝。以目前 SQL Server 2008 Analysis Services 來說，最被廣為使用的是倒傳遞類神經網路（Back-propagation Neural Network，BPNN）。

倒傳遞網路是由多層的神經元結構所構成，基本架構中最外層接收輸入變數的稱之為輸入層（Input Layer），而最後產生預測結果的神經元則稱之為輸出層（Output Layer），

而介於中間有一層至多層的神經元稱之為隱藏層（Hidden Layer）。隱藏層的主要功能是為了增加類神經網路的複雜性，以期能夠模擬較複雜的非線性關係，表現輸入處理單元間的相互作用影響，如圖 4。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖4：類神經網路架構[15]

類神經網路必須透過訓練的過程反覆地學習，一直到每一個輸入參數都能夠正確地對應到所需要的輸出參數，所以在訓練階段時，就需要建立訓練資料供類神經網路學習使用。而倒傳遞網路的運作過程分為學習與回想兩步驟，將所有訓練資料執行過這兩步驟後稱為一個學習循環（learning cycle），一個倒傳遞網路可以把資料經過數個學習循環後，直到結果達到收斂狀態。

類神經網路可以同時應用在「連續變數」以及「類別變數」的預測分析，如果是連續變數預測，就是以單一輸出層神經元的輸出訊號強度，來預測連續變數值的大小。類神經網路雖然有較良好的預測能力，但是它在輸入變數上的限制是比較多的，而為了能夠達到良好的預測效果，因此在資料預處理時就要確實做到修正極端值、避免變數間的共線性等。

為了避免過度學習的問題，另需要一組資料用來驗證類神經權重修正的正確性，稱之為鑑效組。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 邏輯迴歸（Logistic Regression）

當要預測連續數值時，迴歸模型是相當有效的一種分析方式，可以透過線性迴歸來釐清每個輸入變數對於預測變數的貢獻度。但是這種分析模式面對一些特殊型態的變數時，就會產生嚴重的偏誤。[15]

正因為傳統線性模型無法處理機率分配，必須選擇其他非線性函數來作為機率分配的近似值，嘗試透過非線性函數去估算所感興趣的參數值。因此選擇的機率分配函數不同就代表不同的迴歸演算法，以邏輯迴歸來說，所使用的是 Logit 函數：

     ^x

x e

e Y e

X Logit

 

 _

1 1

如圖 5，當在處理線性迴歸時，是透過最小方差法的模式來求出一條誤差平方和最小的直線。而當要計算邏輯迴歸時，同樣必須透過參數估計的方式來找出一條最近似的曲線。而邏輯迴歸的特色是當 X 趨近於無限大時，e 會趨近於無限大，因此 Logit 函數^x 會趨近於 1（無限大分之無限大）；而當 X 趨近於負無限大時，e 會趨近於零，因此^x Logit 函數會趨近於零。所得數值將永遠介於 0 到 1 之間，因此所得到的迴歸預測值，

不會像線性迴歸一樣有大於 1 或低於 0 的情況。[15]

圖5：邏輯迴歸[41]

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

最後，介紹資料探勘軟體以區辨力分數評比預測模型的方法。在 Microsoft SQL Server 2008 Analysis Services 建置貝氏機率分類模型的過程中，採用吉尼係數的觀念，

以曲線下面積比例計算比值的方式作為資料探勘模型區辨力分數。

吉尼係數（Gini coefficient）是 20 世紀初義大利經濟學家吉尼，根據洛倫滋曲線

（Lorenz curve）找出了判斷分配平等程度的指標。通常用吉尼係數來表現一個國家和地區的財富分配狀況；此項係數愈大，表示所得分配不均等的程度愈高，反之，係數愈小，表示不均等的程度愈低。國際間通常把 0.4 作為收入分配差距的「警戒線」，認為接近 0.4 就是嚴重的分配不均，超過這個值便很容易引起社會動盪。

圖6：Gini Coefficient 的圖形表示[42]

如圖 6，假設實際分配曲線和分配絕對平等曲線之間的面積為 A，實際分配曲線右下方的面積為 B。並以 A 除以 A+B 的商被稱為吉尼係數。如果 A 為 0，吉尼係數為 0，

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

表示分配完全平等；如果 B 為 0 則吉尼係數為 1，分配絕對不平等。該係數可在 0 和 1 之間取任何值。分配越是趨向平等，洛倫滋曲線的弧度越小，吉尼係數也越小，反之，

收入分配越是趨向不平等，洛倫滋曲線的弧度越大，那麼吉尼係數也越大。如圖所示，

若洛倫滋曲線以 Y = L(X)表示，吉尼係數(G)可用下列算式表示：[42]

1  

1 2

G  L X dX

在 Microsoft SQL Server 2008 Analysis Services 中，正常的模型增益圖必定要比 45 度線向第二象限彎曲，增益圖曲線越向上彎曲，表示模型效果越好。採用「模型曲線介於 45 度線之間面積」與「完美模型曲線介於 45 度線之間面積」的比值來作為評估。也有研究改用「模型曲線下面積與完美模型下面積的比值」，區辨力分數越接近 1，就表示模型預測力越高。又稱為 AUC（Area Under Curve）[16]。將上述定義整理如表 5。

表5：貝氏機率分類模型區辨能力[16]

AUC 值 Gini 值模型區辨能力

=50% 0.0 無區辨能力 50%~70% 0.0~0.4 模型區辨能力極差 70%~80% 0.4~0.6 可接受之區辨能力 80%~90% 0.6~0.8 非常良好之區辨能力 90%~100% 0.8~1.0 過度完美之區辨能力

而在 Microsoft SQL Server 2008 Analysis Services 建置類神經網路及邏輯迴歸模型的過程中，散佈圖的橫軸是實際值，縱軸是預測值。當模型越準確時，代表實際值與預測值越接近，也就離圖中的 45 度線越近，因此可透過散佈圖中的數值落點分布狀態，

來判斷預測模型的狀態。

而過程中採用正規化，將不同的模型、不同分佈、不同尺規的資料，轉換成在特定範圍內的數值資料，方便相互比較。因為原始資料可能無法直接比較，所以需轉換為相

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

同尺規且能夠分別調整每個輸入參數的權重，將資料經正規化後更趨近於常態分配，以減少極大值、極小值影響分析的誤差。

首先在資料探勘模型中，a 為實際值，b(M)為套用 M 模型之預測值，計算每一個測試案例預測值與最佳預測值（即圖中之 45 度線）的概似函數之比值為 score(a,b(M))。若資料探勘模型中有 n 個測試案例，將所有測試案例之分數相乘後取 n 次方根即可得到該模型之分數，如下式。[43]

n i i

score = score(a ,b (M))

由前述各資料探勘模型之區辨力分數，可以評估在本模型所選擇之輸入參數情形下，哪一種模型較適合被採用來預測郵局收寄量。經過多次實驗後，對於資料探勘模型採用之輸入參數也作出調整。

在文檔中以地理資訊系統結合資料探勘技術從事郵局設點分析 - 政大學術集成 (頁 20-27)

第二章 文獻探討

2.2 資料探勘簡介

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧



‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學