第二章、 文獻回顧
第二節、 機器學習
二、 機器學習之模型
(四) 增強學習(Reinforcement Learning)
源自於心理中行為主義理論的學習方法,即如何在環境給予的獎懲刺激
(一) 邏輯斯迴歸(Logistic Regression)
邏輯斯回歸模型是一個二分類模型,它選取不同的特徵與權重來對樣本 進行機率分類,利用邏輯斯函數(logit function)計算樣本屬於某一類的機 率。即一個樣本會有一定的機率屬於一個類,會有一定的機率屬於另一類,
機率大的類即為樣本所屬類。邏輯斯回歸適用於處理線性和二元的分類問題。
邏輯斯回歸是屬於分類演算法,而非回歸演算法。但其缺點是,如果類別不 是”線性可分類”的,它就不會收斂。
(二) 單純貝氏分類法(Naive Bayesian)
單純貝氏分類法的原理是通過某對象的先驗機率,利用貝氏定理計算出 其後驗機率,即該對象屬於某一類的機率,選擇具有最大後驗機率的類作為
‧
(三) 決策樹演算法(Decision Tree)
機器學習中,決策樹是一個預測模型;他代表的是對象屬性與對象值之 不同邊,而獲得最大的資訊增益(information gain)。在迭代的過程中,在每 個子節點重複分割過程,直到樹葉節點的樣本都屬於同一個類別。決策樹演
(四) 隨機森林(Random Forest)
隨機森林是用隨機的方式建立一個森林,森林裡面有很多的決策樹組成,
隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之後,當有一個新
‧
器學習領域稱為整體 Ensemble。整體機器學習(Ensemble learning)演算法則 是結合多個弱學習器來建構一個強穩的模型,而這種模型比較不會有偏差或 是發生高度適合。隨機森林通過自助法(bootstrap)重採樣技術,從原始訓練樣本集 N 中 有放回地重複隨機抽取 k 個樣本生成新的訓練樣本集合,然後根據自助樣本 式稱為 bootstrap sample 方法),作為該樹的訓練集。如果每個樣本的特徵維 度為 M,指定一個常數 m<<M,隨機地從 M 個特徵中選取 m 個特徵子集,
每次樹進行分裂時,從這 m 個特徵中選擇最優的。每棵樹都盡最大程度的生 長,並且沒有剪枝過程。
隨機森林屬於整合學習(Ensemble Learning)中的 bagging 演算法,可以 用來做分類、回歸等問題。與 bagging 的區別是在生成每棵樹的時候,每個 節點變數都僅僅在隨機選出的少數變數中產生。因此,樣本和每個節點的特
‧
(五) 線性支援向量機(SVM-Linear)
支援向量機是在分類與迴歸分析中分析資料的監督式學習模型與相關
(六) 非線性支援向量機(SVM-Nonlinear)
為了使用 SVM 解決非線性分離的數據,透過對應函數∅(∙),將訓練數
‧
(七) K-Nearest Neighbor
KNN 演算法的核心思想是如果一個樣本在特征空間中的 K 個最相鄰的
‧
其特性有,KNN 是一種 memory-based learning,也叫 instance-based learning,屬於 lazy learning。即它沒有明顯的前期訓練過程,而是進程開始 運行時,把數據集加載到內存後,不需要進行訓練,就可以開始分類。
(八) Bootstrap Aggregating
Bagging 是通過組合隨機生成的訓練集而改進分類的整合演算法。從訓 練資料中隨機抽取(取出後放回,n<N)樣本訓練多個分類器(要多少個分類器 自己設定),每個分類器的權重一致最後用投票方式(Majority vote)得到最終 結果,而這種抽樣的方法在統計上稱為 bootstrap。
其演算法原理為不同的訓練集是通過調整每個樣本對應的權重實現的,
Bagging 的優點在於原始訓練樣本中有噪聲資料(不好的資料),透過
‧
定性。Bagging 可與其他分類、回歸算法結合,提高其準確率、穩定性的同 時,通過降低結果的方差,避免過擬合的發生。