Choquet 積分迴歸模式與脊迴歸之簡介

第二章文獻探討

第五節 Choquet 積分迴歸模式與脊迴歸之簡介

其中模糊積分，稱為 Choquet 積分，Sugeno (1974)亦提出其專有之模糊積分，稱為 Sugeno 積分，劉湘川（2006）指出 Sugeno 積分不能視為常用可加性積分之推廣，

且只能處理重要度模糊測度值及得分可測函數值均須經正規化，故本研究只考慮

圖2-6 Choquet積分基本概念

為60、80、70，則某生研究所入學測驗成績，不考慮交互作用之傳統計分方法為

   

regression model)，簡稱為 Choquet 積分迴歸模式，其估計式如下：

ˆ ˆ

參、脊迴歸之理論與模式

脊迴歸分析法是由Hoerl 及 Kennard 於 1970 年提出，主要是為了解決自變數間呈現共線性的情形，其精神在於迴歸係數 β 之估計過程中損失少許的準確度 (accuracy)，而提高估計精確度(precision)之一種偏量估計式，估計式所得的脊迴歸參數估計量_{ }^_R 雖具偏誤性，但在共線性存在的情況下，脊迴歸估計量所求得之總變異卻比最小平方估計量^ 之總變異小，表示估計結果較為穩定，且脊迴歸求得之均方誤差(MSE)較小，顯示脊迴歸較為精確（杜雨潔，2008）。如圖 2-8。

圖2-8 b 與b 之抽樣分配 ^R

脊迴歸的構想是對標準化後的解釋變異矩陣X ，將X X 矩陣的對角線元素^T 上加上一個很小的正數k 。經由適當 k 值的選擇，希望透過此增量來穩定 β 的估計量，降低不當資訊對係數估計的影響。_{ }^_R 之表示如下：

 ^R



^{X X kI}^T



¹^{X X}^T ^Z

^   ^ ^  ^ (2-35)





¹ ^T

Z  X X kI ^ X X (2-36)

其中，_{ }^_R ：脊迴歸參數估計量、^ ：迴歸參數估計量，可以知道脊迴歸參數估計量與線性迴歸參數估計量的關係為一線性轉換。因此，脊迴歸的模式利用矩陣表現如下：

 ^R Z

^  ^ (2-37)

*  

Y  X ^R   X Z  ^ (2-38)

第六節交互驗證法

資料採礦（Data Mining）應用於選取模型時，交互驗證法（Cross-Validation，

簡稱為 CV）是一個常用且有效的方法，目的主要在驗證假設的模型是否適當，

其方法為：將樣本資料分為訓練集（Training set）與測試集（Test set）兩組，訓練集資料用以估計參數並建立模型，而測試集資料則是用來測試訓練集所建立的模型，驗證之結果可作為最佳模型選擇的指標。翁惟盛（2007）指出若為類別資料，則以「準確度」為準則，找出最高「準確度」的分類模型；若為連續資料，

則以MSE 為準則，找出最小 MSE 的預測模型。

交叉驗證實驗法（K-fold Cross Validation）是一種用來衡量分類準確率以及分類系統之可靠度的評估方法 (Salzberg, 1977; Tan & Gilbert, 2003)，其方法為將資料集分成大小相等而且彼此之間互斥的 n 個等分，每次以其中一個等分當作測試資料，其他等分則當作訓練資料，以此方式重複 n 次的訓練與測試，並且將這 n 次的結果平均即可求得最後分類的準確率。

舉例來說，如果將資料集分成五個等分（n = 5），如同上述此方法將需要執行五次，在第一次的訓練與測試中，以 fold 1 當作測試資料，其他四個 fold 則當作訓練資料，以這樣的方式來挖掘法則以建立模型並進而計算準確率，以此類推在執行五次之後將會得到五組準確率，將這五組準確率平均即為此資料集的分

類準確率。由於這樣的方式能確保每筆資料都有成為測試資料的機會，所以所有的測試資料均具備了獨立的特性，資料彼此之間相依性的影響也會因此降低 (Salzberg, 1977)。且 Witten 等學者 (Witten & Frank, 2000)的實驗中也獲得證實，將資料以交叉驗證實驗法足以有效衡量分類系統。一般交互驗證法有 Hold out set CV、Leave-Many-Out CV、K-fold CV 以下分別簡單介紹

壹、Hold out set CV

貳、Leave-Many-Out CV（Leave-M%-Out CV）

雖然在樣本數充足之下Hold out set CV 可達到一致性，但是若我們不知道目

N  NM 。Leave-Many-Out CV(Leave-M%-Out)即是每次固定隨機抽取M%的樣

本作為測試樣本，(1M%)的樣本為訓練樣本。注意，此時樣本可抽選的組合有計算的複雜。因此實證上常常使用K-fold CV 取代 Leave-Many-Out CV。

參、K-fold CV

杜雨潔（2006）指出 K-fold CV 對 Leave-Many-Out CV 進行改善。將資料集合分為K 個子集合，重複 Leave-Many-Out CV 進行 K 次。每一次都將其他 K-1 個子集合合併為訓練樣本；計算在K 次試行之下平均誤差。此方法的優點是會降低樣本畫分所造成的誤差，且較適用於小樣本的資料。每一個樣本實際上都會被當作測試樣本一次，被當作訓練樣本K-1 次。隨著 K 的增加，其變異會逐次下降。

其缺點為訓練過程必須運算 K 次。只要 K 個子集合當中樣本數相同，使用者可自行決定樣本的數量。

本研究使用5-fold 交互驗證法，將資料依適當規則分為五個子集合，重複進行5 次，將第一個子集合為測試樣本，第二至五個子集合為訓練樣本，計算第一次試行下誤差；第二次將第二個子集合為測試樣本，其餘子集合為訓練樣本，計算第二次試行下誤差；如此方法進行5 次檢測，計算 5 次試行下的之平均誤差與相關係數。此方法需注意一開始將樣本畫分為數個子集合時，需選取適當畫分規則使得所畫分出之子集合之間差異要小。

在文檔中基於模糊測度之Choquet積分模式的網路書寫評量系統 (頁 48-57)

第二章 文獻探討