第二章 文獻探討
第五節 Choquet 積分迴歸模式與脊迴歸之簡介
其中 模糊積分,稱為 Choquet 積分,Sugeno (1974)亦提出其專有之模糊積分,稱為 Sugeno 積分,劉湘川(2006)指出 Sugeno 積分不能視為常用可加性積分之推廣,
且只能處理重要度模糊測度值及得分可測函數值均須經正規化,故本研究只考慮
圖2-6 Choquet積分基本概念
為60、80、70,則某生研究所入學測驗成績,不考慮交互作用之傳統計分方法為
regression model),簡稱為 Choquet 積分迴歸模式,其估計式如下:ˆ ˆ
參、脊迴歸之理論與模式
脊迴歸分析法是由Hoerl 及 Kennard 於 1970 年提出,主要是為了解決自變數 間呈現共線性的情形,其精神在於迴歸係數 β 之估計過程中損失少許的準確度 (accuracy),而提高估計精確度(precision)之一種偏量估計式,估計式所得的脊迴 歸參數估計量 R 雖具偏誤性,但在共線性存在的情況下,脊迴歸估計量所求得 之總變異卻比最小平方估計量 之總變異小,表示估計結果較為穩定,且脊迴歸 求得之均方誤差(MSE)較小,顯示脊迴歸較為精確(杜雨潔,2008)。如圖 2-8。
圖2-8 b 與b 之抽樣分配 R
脊迴歸的構想是對標準化後的解釋變異矩陣X ,將X X 矩陣的對角線元素T 上加上一個很小的正數k 。經由適當 k 值的選擇,希望透過此增量來穩定 β 的估 計量,降低不當資訊對係數估計的影響。 R 之表示如下:
R
X X kIT
1X XT Z (2-35)
T
1 TZ X X kI X X (2-36)
其中, R :脊迴歸參數估計量、 :迴歸參數估計量,可以知道脊迴歸參 數估計量與線性迴歸參數估計量的關係為一線性轉換。因此,脊迴歸的模式利用 矩陣表現如下:
R Z
(2-37)
*
Y X R X Z (2-38)
第六節 交互驗證法
資料採礦(Data Mining)應用於選取模型時,交互驗證法(Cross-Validation,
簡稱為 CV)是一個常用且有效的方法,目的主要在驗證假設的模型是否適當,
其方法為:將樣本資料分為訓練集(Training set)與測試集(Test set)兩組,訓 練集資料用以估計參數並建立模型,而測試集資料則是用來測試訓練集所建立的 模型,驗證之結果可作為最佳模型選擇的指標。翁惟盛(2007)指出若為類別資 料,則以「準確度」為準則,找出最高「準確度」的分類模型;若為連續資料,
則以MSE 為準則,找出最小 MSE 的預測模型。
交叉驗證實驗法(K-fold Cross Validation)是一種用來衡量分類準確率以及 分類系統之可靠度的評估方法 (Salzberg, 1977; Tan & Gilbert, 2003),其方法為將 資料集分成大小相等而且彼此之間互斥的 n 個等分,每次以其中一個等分當作 測試資料,其他等分則當作訓練資料,以此方式重複 n 次的訓練與測試,並且 將這 n 次的結果平均即可求得最後分類的準確率。
舉例來說,如果將資料集分成五個等分(n = 5),如同上述此方法將需要執 行五次,在第一次的訓練與測試中,以 fold 1 當作測試資料,其他四個 fold 則 當作訓練資料,以這樣的方式來挖掘法則以建立模型並進而計算準確率,以此類 推在執行五次之後將會得到五組準確率,將這五組準確率平均即為此資料集的分
類準確率。由於這樣的方式能確保每筆資料都有成為測試資料的機會,所以所有 的測試資料均具備了獨立的特性,資料彼此之間相依性的影響也會因此降低 (Salzberg, 1977)。且 Witten 等學者 (Witten & Frank, 2000)的實驗中也獲得證實,將 資料以交叉驗證實驗法足以有效衡量分類系統。一般交互驗證法有 Hold out set CV、Leave-Many-Out CV、K-fold CV 以下分別簡單介紹
壹、Hold out set CV
貳、Leave-Many-Out CV(Leave-M%-Out CV)
雖然在樣本數充足之下Hold out set CV 可達到一致性,但是若我們不知道目
N NM 。Leave-Many-Out CV(Leave-M%-Out)即是每次固定隨機抽取M%的樣
本作為測試樣本,(1M%)的樣本為訓練樣本。注意,此時樣本可抽選的組合有 計算的複雜。因此實證上常常使用K-fold CV 取代 Leave-Many-Out CV。
參、K-fold CV
杜雨潔(2006)指出 K-fold CV 對 Leave-Many-Out CV 進行改善。將資料集 合分為K 個子集合,重複 Leave-Many-Out CV 進行 K 次。每一次都將其他 K-1 個子集合合併為訓練樣本;計算在K 次試行之下平均誤差。此方法的優點是會降 低樣本畫分所造成的誤差,且較適用於小樣本的資料。每一個樣本實際上都會被 當作測試樣本一次,被當作訓練樣本K-1 次。隨著 K 的增加,其變異會逐次下降。
其缺點為訓練過程必須運算 K 次。只要 K 個子集合當中樣本數相同,使用者可 自行決定樣本的數量。
本研究使用5-fold 交互驗證法,將資料依適當規則分為五個子集合,重複進 行5 次,將第一個子集合為測試樣本,第二至五個子集合為訓練樣本,計算第一 次試行下誤差;第二次將第二個子集合為測試樣本,其餘子集合為訓練樣本,計 算第二次試行下誤差;如此方法進行5 次檢測,計算 5 次試行下的之平均誤差與 相關係數。此方法需注意一開始將樣本畫分為數個子集合時,需選取適當畫分規 則使得所畫分出之子集合之間差異要小。