演算法說明

第三章研究方法

第五節演算法說明

一、簡單貝氏(Naïve Bayes)

簡單貝氏又稱為簡單貝葉斯或獨立貝葉斯，它被廣泛用於文字分類及資料探勘。簡單貝氏可以簡單、快速、準確計算每個樣本的機率，適合處理大量數據，

是一種機率分類器，可利用特徵條件來計算該樣本的機率屬於何種類別，即使特徵條件互相依賴，但在簡單貝氏下仍是獨立考慮的。

簡單貝氏是基於貝氏定理的統計分類技術。在介紹貝氏定理前要先了解條件機率，P(A|B)表示在 B 已經發生的前提之下，A 發生的機率，其公式為：

P(A|B) = Ρ(Α ∩ Β)

Ρ(Β) (1)

在平常生活中很常遇到 P(A|B)發生的情況，但很難計算出 P(B|A)，像是我們知道貸款在延遲付款(P(B))發生的情況之下，可以容易計算違約(P(A))的機率，但假如現在已知貸款已違約(P(A))，會較難計算出延遲付款(P(B))的機率為多少，因此就可使用貝氏定理計算，其公式為：

P(Β|Α) =Ρ(Α|Β)Ρ(Β)

Ρ(Α) (2)

繼上述例子，可能影響貸款違約因子不只有一項變數，因此可將公式改寫為：

P(Β₁|Α) = Ρ(Α|Β₁)Ρ(Β₁)

∑ Ρ(Α|Β_𝑖 _𝑖)Ρ(Β_𝑖) (3) 而簡單貝氏是從貝氏定理轉化而成的，假設有一數據集 X 有 i 個解釋變數，

Y 為目標變數(Yes or No)，而後測試觀察 X 的 i 個解釋變數，Y 的預測值為何。

簡單貝氏有一假設為解釋變數皆互相獨立，彼此互不影響，因此可以推導出以下公式：

P(X|Y_𝑗) = Ρ(X₁, X₂, … , X_𝑖|Y_𝑗) = ∏ Ρ(Χ_𝑖|Y_𝑗

𝑛

𝑖=1

) (4)

再將公式(4)套用至貝氏定理公式(3)，即可得出簡單貝氏模型，公式如下：

Ρ(Y_𝑗|Χ) = Ρ(Y_𝑗) ∏^𝑛_𝑖=1Ρ(Χ_𝑖|Y_𝑗)

∑^𝑘_𝑘=1[Ρ(Y_𝑗) ∏^𝑛_𝑖=1Ρ(Χ_𝑖|Y_𝑗)] (5) 最後將數據集帶入模型後利用最大後驗機率（MAP）找出最有可能之值，並考慮到公式(5)的分母值為一樣，因此忽略分母，其最終公式如下：

Y = 𝑎𝑟𝑔𝑚𝑎𝑥Ρ(Y_𝑗) ∏ Ρ(Χ_𝑖|Y_𝑗

𝑛

𝑖=1

) (6)

假如使用簡單貝氏模型有機會出現零機率問題，預測出來是 0。後驗機率為 0，會使模型無法預估，因此可使用拉普拉斯變換(Laplace Transform)做修正，將每一分類增加一個數值，且不會對機率產生影響，即可解決此問題。

二、隨機森林(Random Forest)

隨機森林是由 Leo Breiman(2001)所提出，是一種基於決策樹(Decision Tree) 的集合型學習演算法，加入隨機分配的訓練資料，可為數據的隨機子集生成多個決策樹，有效提高預測的穩健性與準確性，也因隨機性的抽取，相較決策樹更不容易出現過度擬合(over-fitting)，也能夠處理高維度(feature)的資料，且資料集無需規範，能處理各種型態之資料。

隨機森林演算法的運算過程簡單來說是利用 Bagging (Bootstrap Aggregating) 演算法及決策樹(Decision Tree)演算法結合而形成的，首先 Bagging 演算法每一輪透過 bootstrap 的方式來得到不同的資料，給定訓練集Χ = 𝑥₁, … , 𝑥_𝑛和目標Y = 𝑦₁, … , 𝑦_𝑛，以隨機抽取且會放回的方式取得數個樣本，最後把抽取的訓練資料集合成一個資料集，再利用分類和迴歸樹(Classification and Regression Tree,簡稱 CART)建立一棵樹，而抽取 N 個樣本就會形成 N 棵樹，最後再將 N 棵樹集合在一起並公平的投票或平均得到最後的結果。圖 11 顯示隨機森林的演算流程。

圖11 隨機森林演算流程

Bagging 演算法透過 bootstrap 來形成資料集時，原始的樣本中會有一部分樣本不會被採集到，這些資料被稱為 OOB(Out-Of-Bag)誤差，OOB 的計算公式如下：

(1 − 1 𝑁)

𝑁

= 1 ( 𝑁

𝑁 − 1)

𝑁 = 1

(1 + 1 𝑁 − 1)

𝑁 ≈1

𝑒 (7)

上述公式簡化後大約會有 0.368 的 OOB 值，可以利用 OOB 資料來估計樹的泛化誤差(Generalization error)及計算單項變數的重要性，也可以利用交叉驗證 (Cross-validation)的方式驗證抽出樣本的好壞。

三、邏輯斯迴歸(Logistic Regression)

邏輯斯迴歸最早是由 Ohlson(1980)運用於財務危機預測，邏輯斯迴歸又稱為邏輯迴歸或對數機率迴歸，是一種對數機率模型(Logit Model)，屬於多變量分析之一，最常用於二元分類問題，判斷某個問題是 1 還是 0 或用於預測在不同解釋

變數下，發生某種情況的機率大小。邏輯斯迴歸執行速度非常快，也可避免線性迴歸(Linear Regression)模型中預測機率可能出現大於 1 或小於 0 的問題，線性回歸是用來預測一個或多個連續的值，利用最小平方法對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析；而羅吉斯迴歸利用最大概似法(MLE)進行預測類別型變數。

由於邏輯斯迴歸基於線性模型，利用 sigmoid 函數將 X 映射至(0,1)之間，其公式為：

F(X) = 𝑒^𝑋

1 + 𝑒^𝑋 (8)

假設數據集的選擇變數為(X₁, X₂, … , X_n)，目標變數 Y 為二項式變數時，事件成功(Y=1)的機率如下：

Ρ(Y = 1|X) = 𝑒^𝛽⁰^+𝛽¹^𝑋¹^+⋯+𝛽^𝑛^𝑋^𝑛

1 + 𝑒^𝛽⁰^+𝛽¹^𝑋¹^+⋯+𝛽^𝑛^𝑋^𝑛 (9) 則事件失敗(Y=0)的機率為：

Ρ(Y = 0|X) = 1 − Ρ(Y = 0|X) = 1

1 + 𝑒^𝛽⁰^+𝛽¹^𝑋¹^+⋯+𝛽^𝑛^𝑋^𝑛 (10) 將勝率(ODDS)取自然對數為對數勝率，公式如下：

ln Ρ(Y = 1|X)

1 − Ρ(Y = 1|X) = 𝛽₀+ 𝛽₁𝑋₁+ ⋯ + 𝛽_𝑛𝑋_𝑛 (11) 最後使用最大概似法(MLE)求迴歸係數，其對數概似函數為：

L(𝛽₀, 𝛽₁) = ∏ P_𝑖^𝑦^𝑖(1 − P_𝑖)^1−𝑦^𝑖

𝑛

𝑖=1

(12)

在文檔中 P2P網路借貸平台違約風險分析-RapidMiner之應用 (頁 31-35)

第三章 研究方法

第五節 演算法說明

第三章研究方法

第五節演算法說明