• 沒有找到結果。

第二章 文獻探討

2.2 資料探勘簡介

在 Microsoft SQL Server 2008 Analysis Services 中,此演算法使用貝氏定理但卻沒有 考量變數之間可能存在的相依性,因此其假設被視為「Naive」(亦即天真之意)。此 演算法比其他 Microsoft 演算法更少計算,因此能夠快速產生資料採礦模型,對於用來 分析輸入資料行和可預測資料行之間的相關聯性很有用。但因僅適用於類別變數,需根 據變數類型決定是否可採用。

貝氏機率分類的優點如下:

(1) 計算速度最快的演算法。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

(2) 規則清楚易懂。

(3) 獨立事件的假設,在大多數問題上不至於發生太大偏誤。

貝氏機率分類的缺點如下:

(1) 僅能適用於類別變數。

(2) 僅能應用於分類問題(預測類別變數)。

(3) 假設變數間為獨立互不影響,因此使用時須要謹慎分析變數間的相依性。[14]

2. 類神經網路(Neural Network)

人類大腦的結構包括了幾個主要的單元:

(1) 神經核(Soma):神經元的中央處理單位,將輸入的資料作加總後再進行非線 性轉換。

(2) 軸突(Axon):神經元中負責把神經脈衝從細胞體往外傳遞的神經纖維。

(3) 樹突(Dendrites):神經元中負責把神經脈衝傳遞至細胞體的神經纖維。

(4) 突觸(Synapse):神經元之間的聯結機制,稱為權重值。

圖3:類神經網路單元之模型[3]

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

類神經網路神經元的組成是仿傚人類神經元的結構,其結構如圖 3,其中X 就是輸i 入變數值,而w 則是輸入變數的權重,ij X 乘上i w 就等於外部輸入的神經脈衝,但是在ij 通過樹突時,累加神經脈衝必須大於門檻值,才能夠傳遞至神經元。對於神經元來說,

所有的輸入訊號可以用下式來表示:

j i ij j

i

Yf X w

 

其中Y  j 表示前端神經元的輸出值, f 為轉換函數,X 表示輸入值, i w 表示權重值,ij

j 表示該神經元本身的門檻值。[3]

如圖 3,當脈衝通過樹突進入神經元後,神經元會透過加總函數把所有的神經脈衝 累加,必須達到門檻值,訊息才會透過轉換函數(Activation Function)的方式,產生新 的神經脈衝(Y  j )向外傳遞。

將神經元彼此連結就構成了類神經網路架構,也就是一個神經元的輸出可以變成下 一個類神經網路的輸入脈衝。以目前 SQL Server 2008 Analysis Services 來說,最被廣為 使用的是倒傳遞類神經網路(Back-propagation Neural Network,BPNN)。

倒傳遞網路是由多層的神經元結構所構成,基本架構中最外層接收輸入變數的稱之 為輸入層(Input Layer),而最後產生預測結果的神經元則稱之為輸出層(Output Layer),

而介於中間有一層至多層的神經元稱之為隱藏層(Hidden Layer)。隱藏層的主要功能 是為了增加類神經網路的複雜性,以期能夠模擬較複雜的非線性關係,表現輸入處理單 元間的相互作用影響,如圖 4。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖4:類神經網路架構[15]

類神經網路必須透過訓練的過程反覆地學習,一直到每一個輸入參數都能夠正確地 對應到所需要的輸出參數,所以在訓練階段時,就需要建立訓練資料供類神經網路學習 使用。而倒傳遞網路的運作過程分為學習與回想兩步驟,將所有訓練資料執行過這兩步 驟後稱為一個學習循環(learning cycle),一個倒傳遞網路可以把資料經過數個學習循 環後,直到結果達到收斂狀態。

類神經網路可以同時應用在「連續變數」以及「類別變數」的預測分析,如果是連 續變數預測,就是以單一輸出層神經元的輸出訊號強度,來預測連續變數值的大小。類 神經網路雖然有較良好的預測能力,但是它在輸入變數上的限制是比較多的,而為了能 夠達到良好的預測效果,因此在資料預處理時就要確實做到修正極端值、避免變數間的 共線性等。

為了避免過度學習的問題,另需要一組資料用來驗證類神經權重修正的正確性,稱 之為鑑效組。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3. 邏輯迴歸(Logistic Regression)

當要預測連續數值時,迴歸模型是相當有效的一種分析方式,可以透過線性迴歸來 釐清每個輸入變數對於預測變數的貢獻度。但是這種分析模式面對一些特殊型態的變數 時,就會產生嚴重的偏誤。[15]

正因為傳統線性模型無法處理機率分配,必須選擇其他非線性函數來作為機率分配 的近似值,嘗試透過非線性函數去估算所感興趣的參數值。因此選擇的機率分配函數不 同就代表不同的迴歸演算法,以邏輯迴歸來說,所使用的是 Logit 函數:

    x

x

x e

e Y e

X Logit

 

 

1 1

1

如圖 5,當在處理線性迴歸時,是透過最小方差法的模式來求出一條誤差平方和最 小的直線。而當要計算邏輯迴歸時,同樣必須透過參數估計的方式來找出一條最近似的 曲線。而邏輯迴歸的特色是當 X 趨近於無限大時,e 會趨近於無限大,因此 Logit 函數x 會趨近於 1(無限大分之無限大);而當 X 趨近於負無限大時,e 會趨近於零,因此x Logit 函數會趨近於零。所得數值將永遠介於 0 到 1 之間,因此所得到的迴歸預測值,

不會像線性迴歸一樣有大於 1 或低於 0 的情況。[15]

圖5:邏輯迴歸[41]

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

最後,介紹資料探勘軟體以區辨力分數評比預測模型的方法。在 Microsoft SQL Server 2008 Analysis Services 建置貝氏機率分類模型的過程中,採用吉尼係數的觀念,

以曲線下面積比例計算比值的方式作為資料探勘模型區辨力分數。

吉尼係數(Gini coefficient)是 20 世紀初義大利經濟學家吉尼,根據洛倫滋曲線

(Lorenz curve)找出了判斷分配平等程度的指標。通常用吉尼係數來表現一個國家和 地區的財富分配狀況;此項係數愈大,表示所得分配不均等的程度愈高,反之,係數愈 小,表示不均等的程度愈低。國際間通常把 0.4 作為收入分配差距的「警戒線」,認為 接近 0.4 就是嚴重的分配不均,超過這個值便很容易引起社會動盪。

圖6:Gini Coefficient 的圖形表示[42]

如圖 6,假設實際分配曲線和分配絕對平等曲線之間的面積為 A,實際分配曲線右 下方的面積為 B。並以 A 除以 A+B 的商被稱為吉尼係數。如果 A 為 0,吉尼係數為 0,

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

表示分配完全平等;如果 B 為 0 則吉尼係數為 1,分配絕對不平等。該係數可在 0 和 1 之間取任何值。分配越是趨向平等,洛倫滋曲線的弧度越小,吉尼係數也越小,反之,

收入分配越是趨向不平等,洛倫滋曲線的弧度越大,那麼吉尼係數也越大。如圖所示,

若洛倫滋曲線以 Y = L(X)表示,吉尼係數(G)可用下列算式表示:[42]

1  

0

1 2

G  L X dX

在 Microsoft SQL Server 2008 Analysis Services 中,正常的模型增益圖必定要比 45 度線向第二象限彎曲,增益圖曲線越向上彎曲,表示模型效果越好。採用「模型曲線介 於 45 度線之間面積」與「完美模型曲線介於 45 度線之間面積」的比值來作為評估。也 有研究改用「模型曲線下面積與完美模型下面積的比值」,區辨力分數越接近 1,就表 示模型預測力越高。又稱為 AUC(Area Under Curve)[16]。將上述定義整理如表 5。

表5:貝氏機率分類模型區辨能力[16]

AUC 值 Gini 值 模型區辨能力

=50% 0.0 無區辨能力 50%~70% 0.0~0.4 模型區辨能力極差 70%~80% 0.4~0.6 可接受之區辨能力 80%~90% 0.6~0.8 非常良好之區辨能力 90%~100% 0.8~1.0 過度完美之區辨能力

而在 Microsoft SQL Server 2008 Analysis Services 建置類神經網路及邏輯迴歸模型 的過程中,散佈圖的橫軸是實際值,縱軸是預測值。當模型越準確時,代表實際值與預 測值越接近,也就離圖中的 45 度線越近,因此可透過散佈圖中的數值落點分布狀態,

來判斷預測模型的狀態。

而過程中採用正規化,將不同的模型、不同分佈、不同尺規的資料,轉換成在特定 範圍內的數值資料,方便相互比較。因為原始資料可能無法直接比較,所以需轉換為相

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

同尺規且能夠分別調整每個輸入參數的權重,將資料經正規化後更趨近於常態分配,以 減少極大值、極小值影響分析的誤差。

首先在資料探勘模型中,a 為實際值,b(M)為套用 M 模型之預測值,計算每一個測 試案例預測值與最佳預測值(即圖中之 45 度線)的概似函數之比值為 score(a,b(M))。若 資料探勘模型中有 n 個測試案例,將所有測試案例之分數相乘後取 n 次方根即可得到該 模型之分數,如下式。[43]

n i i

i

score = score(a ,b (M))

由前述各資料探勘模型之區辨力分數,可以評估在本模型所選擇之輸入參數情形 下,哪一種模型較適合被採用來預測郵局收寄量。經過多次實驗後,對於資料探勘模型 採用之輸入參數也作出調整。