• 沒有找到結果。

第三章 研究方法

第五節 演算法說明

一、 簡單貝氏(Naïve Bayes)

簡單貝氏又稱為簡單貝葉斯或獨立貝葉斯,它被廣泛用於文字分類及資料探 勘。簡單貝氏可以簡單、快速、準確計算每個樣本的機率,適合處理大量數據,

是一種機率分類器,可利用特徵條件來計算該樣本的機率屬於何種類別,即使特 徵條件互相依賴,但在簡單貝氏下仍是獨立考慮的。

簡單貝氏是基於貝氏定理的統計分類技術。在介紹貝氏定理前要先了解條件 機率,P(A|B)表示在 B 已經發生的前提之下,A 發生的機率,其公式為:

P(A|B) = Ρ(Α ∩ Β)

Ρ(Β) (1)

在平常生活中很常遇到 P(A|B)發生的情況,但很難計算出 P(B|A),像是我們 知道貸款在延遲付款(P(B))發生的情況之下,可以容易計算違約(P(A))的機率,但 假如現在已知貸款已違約(P(A)),會較難計算出延遲付款(P(B))的機率為多少,因 此就可使用貝氏定理計算,其公式為:

P(Β|Α) =Ρ(Α|Β)Ρ(Β)

Ρ(Α) (2)

繼上述例子,可能影響貸款違約因子不只有一項變數,因此可將公式改寫為:

P(Β1|Α) = Ρ(Α|Β1)Ρ(Β1)

∑ Ρ(Α|Β𝑖 𝑖)Ρ(Β𝑖) (3) 而簡單貝氏是從貝氏定理轉化而成的,假設有一數據集 X 有 i 個解釋變數,

Y 為目標變數(Yes or No),而後測試觀察 X 的 i 個解釋變數,Y 的預測值為何。

簡單貝氏有一假設為解釋變數皆互相獨立,彼此互不影響,因此可以推導出以下 公式:

P(X|Y𝑗) = Ρ(X1, X2, … , X𝑖|Y𝑗) = ∏ Ρ(Χ𝑖|Y𝑗

𝑛

𝑖=1

) (4)

再將公式(4)套用至貝氏定理公式(3),即可得出簡單貝氏模型,公式如下:

Ρ(Y𝑗|Χ) = Ρ(Y𝑗) ∏𝑛𝑖=1Ρ(Χ𝑖|Y𝑗)

𝑘𝑘=1[Ρ(Y𝑗) ∏𝑛𝑖=1Ρ(Χ𝑖|Y𝑗)] (5) 最後將數據集帶入模型後利用最大後驗機率(MAP)找出最有可能之值,並 考慮到公式(5)的分母值為一樣,因此忽略分母,其最終公式如下:

Y = 𝑎𝑟𝑔𝑚𝑎𝑥Ρ(Y𝑗) ∏ Ρ(Χ𝑖|Y𝑗

𝑛

𝑖=1

) (6)

假如使用簡單貝氏模型有機會出現零機率問題,預測出來是 0。後驗機率為 0,會使模型無法預估,因此可使用拉普拉斯變換(Laplace Transform)做修正,將 每一分類增加一個數值,且不會對機率產生影響,即可解決此問題。

二、 隨機森林(Random Forest)

隨機森林是由 Leo Breiman(2001)所提出,是一種基於決策樹(Decision Tree) 的集合型學習演算法,加入隨機分配的訓練資料,可為數據的隨機子集生成多個 決策樹,有效提高預測的穩健性與準確性,也因隨機性的抽取,相較決策樹更不 容易出現過度擬合(over-fitting),也能夠處理高維度(feature)的資料,且資料集無 需規範,能處理各種型態之資料。

隨機森林演算法的運算過程簡單來說是利用 Bagging (Bootstrap Aggregating) 演算法及決策樹(Decision Tree)演算法結合而形成的,首先 Bagging 演算法每一 輪透過 bootstrap 的方式來得到不同的資料,給定訓練集Χ = 𝑥1, … , 𝑥𝑛和目標Y = 𝑦1, … , 𝑦𝑛,以隨機抽取且會放回的方式取得數個樣本,最後把抽取的訓練資料集 合成一個資料集,再利用分類和迴歸樹(Classification and Regression Tree,簡稱 CART)建立一棵樹,而抽取 N 個樣本就會形成 N 棵樹,最後再將 N 棵樹集合在 一起並公平的投票或平均得到最後的結果。圖 11 顯示隨機森林的演算流程。

圖11 隨機森林演算流程

Bagging 演算法透過 bootstrap 來形成資料集時,原始的樣本中會有一部分樣 本不會被採集到,這些資料被稱為 OOB(Out-Of-Bag)誤差,OOB 的計算公式如 下:

(1 − 1 𝑁)

𝑁

= 1 ( 𝑁

𝑁 − 1)

𝑁 = 1

(1 + 1 𝑁 − 1)

𝑁 ≈1

𝑒 (7)

上述公式簡化後大約會有 0.368 的 OOB 值,可以利用 OOB 資料來估計樹的 泛化誤差(Generalization error)及計算單項變數的重要性,也可以利用交叉驗證 (Cross-validation)的方式驗證抽出樣本的好壞。

三、 邏輯斯迴歸(Logistic Regression)

邏輯斯迴歸最早是由 Ohlson(1980)運用於財務危機預測,邏輯斯迴歸又稱為 邏輯迴歸或對數機率迴歸,是一種對數機率模型(Logit Model),屬於多變量分析 之一,最常用於二元分類問題,判斷某個問題是 1 還是 0 或用於預測在不同解釋

變數下,發生某種情況的機率大小。邏輯斯迴歸執行速度非常快,也可避免線性 迴歸(Linear Regression)模型中預測機率可能出現大於 1 或小於 0 的問題,線性回 歸是用來預測一個或多個連續的值,利用最小平方法對一個或多個自變數和因變 數之間關係進行建模的一種迴歸分析;而羅吉斯迴歸利用最大概似法(MLE)進行 預測類別型變數。

由於邏輯斯迴歸基於線性模型,利用 sigmoid 函數將 X 映射至(0,1)之間,其 公式為:

F(X) = 𝑒𝑋

1 + 𝑒𝑋 (8)

假設數據集的選擇變數為(X1, X2, … , Xn),目標變數 Y 為二項式變數時,事 件成功(Y=1)的機率如下:

Ρ(Y = 1|X) = 𝑒𝛽0+𝛽1𝑋1+⋯+𝛽𝑛𝑋𝑛

1 + 𝑒𝛽0+𝛽1𝑋1+⋯+𝛽𝑛𝑋𝑛 (9) 則事件失敗(Y=0)的機率為:

Ρ(Y = 0|X) = 1 − Ρ(Y = 0|X) = 1

1 + 𝑒𝛽0+𝛽1𝑋1+⋯+𝛽𝑛𝑋𝑛 (10) 將勝率(ODDS)取自然對數為對數勝率,公式如下:

ln Ρ(Y = 1|X)

1 − Ρ(Y = 1|X) = 𝛽0+ 𝛽1𝑋1+ ⋯ + 𝛽𝑛𝑋𝑛 (11) 最後使用最大概似法(MLE)求迴歸係數,其對數概似函數為:

L(𝛽0, 𝛽1) = ∏ P𝑖𝑦𝑖(1 − P𝑖)1−𝑦𝑖

𝑛

𝑖=1

(12)

相關文件