• 沒有找到結果。

基於相異模糊測度Choquet積分預測模式之比較

N/A
N/A
Protected

Academic year: 2021

Share "基於相異模糊測度Choquet積分預測模式之比較"

Copied!
40
0
0

加載中.... (立即查看全文)

全文

(1)國立台中教育大學教育測驗統計研究所理學碩士論文. 指 導 教 授 : 劉 湘 川. 教 授. 基於相異模糊測度 Choquet 積分 預測模式之比較. 研 究 生 : 翁 惟 盛. 撰. 中 華 民 國 九 十 六 年 六 月.

(2) 謝 辭 本研究論文能夠順利完成,首先要感謝的是指導教授劉湘川老師的教導,讓 我在研究所就讀的兩年間學到了許多事情,除了在學術研究上有所裨益之外,在 待人處事上也讓我獲益良多。此外,還要感謝口試委員郭伯臣教授及黃孝雲教授 在百忙之中評閱論文,並於口試時提出寶貴的意見,才能使得論文內容及架構更 加完善,在此致上最誠摯的謝意。 感謝就學期間許多人對我的幫助。其中,特別感謝慶麟助教,在公務繁忙之 餘還能不厭其煩的解決我的疑問;以及研究好伙伴凱怡,在學習過程中互相討 論、相互扶植;感謝智為、佳瑩、育隆、惠謙等好友,這些日子以來的陪伴與幫 助,使我得以順利進行論文研究。 除了學校的師長、同學、學弟妹之外,最後要感謝我的家人,他們無怨無悔 的付出與支持,才能讓我無後顧之憂的完成研究所學業。在此,僅以次論文獻給 所有關心我、幫助我的人。 翁 惟 盛. 謹致. 中華民國九十六年六月.

(3) 中 文 摘 要 當欲進行預測分析之多個自變數間具共線性時,複線性迴歸模式預測效力常 不佳,傳統改善方法為採用脊迴歸模式,本文建議採用新近發展之「模糊測度 Choquet 積分迴歸模式」 。較簡明適用之模糊測度有 Sugeno(1974)之 λ 測度、Zadeh (1978)之 P 測度及劉湘川(2007)提出改進之 L 測度,劉湘川(2007)並指出任何模糊 測度均可得基於該模糊測度之 Choquet 積分迴歸模式,唯均僅止於理論探析,未 進行實證比較研究,本文針對 λ 測度、P 測度及 L 測度之三種 Choquet 積分迴歸模 式,與常用之 EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式等六種預測模式, 以苗栗某中學八個班級國中理化、生物、地球科學畢業成績預測高中入學自然科 基本能力測驗成績為實例,採用不同方法之交互驗證法,進行預測效力之比較研 究,研究結果顯示,在三種模糊測度 Choquet 積分迴歸模式優於兩種脊迴歸模式, 兩種脊迴歸模式優於複線性迴歸模式,且在全部六種預測模式中,劉湘川(2007) 之基於 L 測度 Choquet 積分迴歸模式有最佳之表現。. 關鍵字: λ 測度、P 測度、 L 測度、脊迴歸模式、Choquet 積分迴歸模式. I.

(4) Abstract When interactions among independent variables exist in forecasting problems, the performance of the multi-regression models is poor. The traditional improved methods are exploiting the ridge regression models. Recently, some new method about fuzzy integral regression models based on different fuzzy measures can also be applied to improve this situation. The λ -measure (Sugeno, 1974) and P-measure (Zadeh, 1978) are the most often used fuzzy measures, Hsiang-Chuan Liu(2007) proposed improving fuzzy measures L -measure. Furthermore, Hsiang-Chuan Liu (2007) pointed out that the fuzzy integral regression models based on any specific fuzzy measures is always existent, up to now, there is no formal practical comparison but the theoretical analysis. In this paper, using different cross validation, a real data set from a junior high school including the independent variables, test scores of three courses with interaction, and the dependent variable, the score of the Basic Competence Test of junior high school is applied to evaluate the performances three Choquet integral regression models, two well know ridge regression models, EMS ridge regression model and VIF ridge regression model, and the traditional multiple linear regression model, three Choquet integral regression models are based on the λ -measure , the P-measure, and the L -measure respectively. Experimental result shows that Choquet integral regression models outperform ridge regression model and multiple linear regression model and the Choquet integral regression based on L -measure proposed by Liu(2007) has the best performance Keywords: λ -measure, P-measure, L -measure, ridge regression model, Choquet integral regression model.. II.

(5) 目 錄 第一章 緒論 .................................................................................................................1 第一節 第二節 第三節 第四節. 研究背景與動機 .....................................................................................1 研究目的 .................................................................................................2 名詞解釋 .................................................................................................2 論文架構 .................................................................................................3. 第二章 文獻探討 .........................................................................................................4 第一節 模糊測度之簡介 .....................................................................................4 第二節 Choquet 積分迴歸模式之簡介 ..............................................................7 第三節 脊迴歸之理論與模式 .............................................................................9 第三章 研究方法 .......................................................................................................14 第一節 研究流程 ...............................................................................................14 第二節 基於 L 測度之最適 Choquet 積分迴歸模式 .......................................15 第三節 交叉驗證法 ...........................................................................................18 第四章 實證分析 .......................................................................................................20 第一節 資料來源之探討 ...................................................................................20 第二節 研究工具與不同模式比較之步驟 .......................................................21 第三節 成效評估 ...............................................................................................22 第五章 結論與建議 ...................................................................................................30 第一節 研究結論 ...............................................................................................30 第二節 後續相關研究建議 ...............................................................................31 參考文獻 .......................................................................................................................32. III.

(6) 表 目 錄 表 4-1 忠班的複迴歸模式適合度檢定摘要表………………………………...…..22 表 4-2 孝班的複迴歸模式適合度檢定摘要表…………………………………….22 表 4-3 仁班的複迴歸模式適合度檢定摘要表…………………………………….22 表 4-4 愛班的複迴歸模式適合度檢定摘要表…………………………………….23 表 4-5 信班的複迴歸模式適合度檢定摘要表…………………………………….23 表 4-6 義班的複迴歸模式適合度檢定摘要表…………………………………….23 表 4-7 和班的複迴歸模式適合度檢定摘要表…………………………………….23 表 4-8 平班的複迴歸模式適合度檢定摘要表…………………………………….23 表 4-9 不同迴歸模式 5-fold CV 之 MSE…………………………………………...28 表 4-10 不同迴歸模式 10-fold CV 之 MSE………………………………………...29 表 4-11 不同迴歸模式 Leave-One-Out CV 之 MSE………………………………..29. IV.

(7) 圖 目 錄 圖 2-1 Choquet 積分基本概念.....................................................................................8 圖 2-2. b 與 b R 之抽樣分配…………………………………………………………..10. 圖 3-1 研究流程…………………………………………………………………….14 圖 4-1 忠班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...24 圖 4-2 孝班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...24 圖 4-3 仁班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...25 圖 4-4 愛班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...25 圖 4-5 信班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...26 圖 4-6 義班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...26 圖 4-7 和班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...27 圖 4-8 平班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖……………...27. V.

(8) 第一章. 緒論. 本研究旨在探討當綜合測驗中之分測驗間具共線性時,脊迴歸模式與不同模 糊測度 Choquet 積分迴歸模式之預測效力比較。本章首先說明本研究之研究背景 與動機,次說明本研究之研究目的,接著將本研究常用名詞加以解釋,最後簡述 本研究之架構。. 第一節 研究背景與動機 國中基測的目的是要測出學生在經過國中三年學習後,所應當具備基礎的、 核心的、重要的知識與能力,國中基測分數是用來作為全國高中、高職、五專錄 取學生的依據之一,因此如何有效的預測學生的能力值,便是我們所特別關注的 議題。 當欲進行預測分析之多個自變數間具共線性時,複線性迴歸模式之預測效力 常不佳(劉應興,1997),傳統改善方法為採用脊迴歸模式,新近發展改善方法為 模糊積分迴歸模式,惟在求取 Choquet 積分(Choquet,1953)之前,必須先選定適當 之模糊測度,一般常用的模糊測度為 Sugeno(1974)之 λ 測度,或 Zadeh(1978)之 P 測度。劉湘川(2007)指出 λ 測度不僅不恆存在非可加性測度解,且不可能存在混 合模糊測度解;P 測度靈敏度不足,且只存在次可加性模糊測度解,不會存在超 可加性模糊測度及混合模糊測度解,上述兩者均只有唯一之選擇,進而提出改進 模糊測度 L 測度,且指出任何模糊測度均可得基於該模糊測度之 Choquet 積分迴 歸模式,唯均僅止於理論探析,未進行實證比較研究。本文針對 Sugeno 之 λ 測度、 Zadeh 之 P 測度、及劉湘川(2007) L 測度之三種 Choquet 積分迴歸模式,與常用之 EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式等六種預測模式,以苗栗某中學 八個班級國中理化、生物、地球科學畢業成績預測高中入學自然科基本能力測驗. 1.

(9) 成績為實例,採用交互驗證法,進行預測效力之比較研究。. 第二節 研究目的 根據上述之動機,在一般常用的模糊測度 Sugeno 之 λ 測度及 Zadeh 之 P 測 度不符合實際所需時,本研究結合 L 測度及 Choquet 積分迴歸模式,並研發電腦 應用程式,作為日後研究模糊測度及模糊積分者,一些具體的建議或可行的研究 方法與參考依據。故整體而言,本研究欲達成之具體目標有下列幾點: 一、 以 Sugeno 之 λ 測度及 Zadeh 之 P 測度結合 Choquet 積分迴歸模式,進行當預 測分析之自變數間具共線性時的預測能力。 二、 發展出「基於 L 測度之 Choquet 積分迴歸模式」 ,作為當欲進行預測分析之自 變數間具共線性時,改善預測效力之方法。 三、 探討模糊積分迴歸模式與脊迴歸模式之基本概念,並採用不同交互驗證法, 比較不同迴歸模式之預測效力。. 第三節 名詞解釋 模糊測度:模糊測度的原理是將一般對於事物的衡量基礎由機率理論轉換成 可能性理論,並將評選要素間的相關性列入考慮,是一種非加法的評估方法。模 糊測度應用於決策問題時,候選集合代表評估項目,而模糊測度即為評估項目的 權重值。 模糊積分:模糊積分是以模糊測度為基礎的一種綜合評估方法,常被應用於 決策問題,且模糊積分並不需要假設評估項目間相互獨立,此方法能有效的整合 具有相關性存在的項目。本研究引用一個常用的模糊積分法 Choquet 積分,來建 立迴歸模式,至於其詳細內容,將於文獻探討中介紹。. 2.

(10) 第四節 論文架構 本研究共分為五部份:第一部份為緒論,說明本研究的研究背景、動機、目 的以及整體研究架構;第二部份為文獻探討與整理,回顧常用之模糊測度、 Choquet 積分迴歸模式及脊迴歸之理論與模式的相關文獻;第三部份為研究方 法,首先介紹本研究之研究流程,接著介紹用來改善預測效力之「基於 L 測度之 Choquet 積分迴歸模式」以及驗證假設模型是否適當的交互驗證法;第四部份為 實證分析,以國中理化、生物、地球科學畢業成績預測國中基測自然科成績,並 介紹本研究使用之軟體,以及不同迴歸模式之成效評估,第五部份則為本研究之 結論與後續相關建議。. 3.

(11) 第二章. 文獻探討. 模糊測度及模糊積分的概念已被廣泛地應用在各種學科領域中,依其所應用 的情形做適當之改變,本章回顧常用之模糊測度、模糊積分及 Choquet 積分迴歸 模式,最後介紹當欲進行預測分析之自變數間具共線性時,常用來當作改善方法 的脊迴歸模式。. 第一節 模糊測度之簡介 模糊測度的原理是將一般對於事物的衡量基礎由機率理論轉換成可能性理 論,並將評選要素間的相關性列入考慮,是一種非加法的評估方法。模糊測度應 用於決策問題時,候選集合代表評估項目,而模糊測度即為評估項目的權重值。. 壹、模糊測度之定義與分類 一般常見之 Lebesgue 測度及機率測度,為可加性測度之特例,滿足可加性之 測度必滿足單調性,反之不必然,放寬限制,以單調性取代可加性之測度即為單 調性測度,此時可加性之測度即為單調性測度之特例,單調性測度又稱為非可加 性測度或模糊測度,其初始概念首先由 Dempster(1967)提出,完備之發展則由 Shafer(1976)提出,Sugeno(1974)提出模糊測度之三種分類,劉湘川(2006)增補第 四種分類;混合模糊測度,其定義及分類如下: 一、模糊測度之定義 若 ( X , 2 X ) 為可測空間,且集合函數 g : 2 X → [ 0,1] 滿足下列條件時,則稱 g 為. ( X , 2 ) 上之模糊測度: X. (i). g (φ ) = 0, g ( X ) = 1. 正規性(normality). (ii) ∀A, B ∈ 2 X , A ⊆ B ⇒ g ( A) ≤ g ( B). 單調性(monotonicity). 4.

(12) 二、模糊測度之分類 令 g 為 ( X , 2 X ) 上之模糊測度: (i) 若 ∀A, B ∈ 2 X , A ∩ B = φ ∋ g ( A ∪ B) = g ( A) + g ( B) 時,則稱 g 為 ( X , 2 X ) 上之可 加性測度(additive measure), (ii) 若 ∀A, B ∈ 2 X , A ≠ φ , B ≠ φ , A ∩ B = φ , A ∪ B ≠ X ∋ g ( A ∪ B) > g ( A) + g ( B) 時,則 稱 g 為 ( X , 2 X ) 上之超可加性測度(superadditive measure), (iii) 若 ∀A, B ∈ 2 X , A ≠ φ , B ≠ φ , A ∩ B = φ , A ∪ B ≠ X ∋ g ( A ∪ B) < g ( A) + g ( B) 時,則 稱 g 為 ( X , 2 X ) 上之次可加性測度(subadditive measure), (iv) 若 g 為 ( X , 2 X ) 上之模糊測度,且不恆為可加性測度、超可加性測度或次 可加性測度時,稱為混合模糊測度(mixture fuzzy measure)。. 貳、Sugeno 之λ測度 Sugeno(1974)提出一具創意之 λ 測度,為最早之模糊測度, λ 測度之定義及 性質如下: 一、Sugeno 之 λ 測度 令 λ ∈ ( −1, ∞ ) , X = { x1 , x2 ,… , xn } , X = n ≥ 3 ,若 ( X , 2 X ) 為可測空間,且集合函數 g λ : 2 X → [ 0,1] 滿足下列條件時,則稱 g λ 為 Sugeno 之 λ 測度,並且稱 λ 值為測度決. 定係數: (i). g λ (φ ) = 0, g λ ( X ) = 1. (ii) ∀A, B ∈ 2 X , A ∩ B = φ , A ∪ B ≠ X ⇒ g λ ( A ∪ B) = g λ ( A) + g λ ( B ) + λ ⋅ g λ ( A) ⋅ g λ ( B) n. (iii). ∏ ⎡⎣1 + λ ⋅ gλ ({ x })⎤⎦ = λ + 1 > 0 i =1. i. 5.

(13) 二、Sugeno 之 λ 測度唯一解定理 令 λ ∈ ( −1, ∞ ) , X = { x1 , x2 ,… , xn } , X = n ≥ 3,( X , 2 X ) 為可測空間,若 g λ : 2 X → [ 0,1] n. 為 Sugeno 之 λ 測度,則 λ 值由 ∏ ⎡⎣1 + λ ⋅ g λ ({ xi } ) ⎤⎦ = λ + 1 > 0 唯一決定,並滿足下列 i =1. 條件: n. (i). ∑ g λ ({ x } ) < 1 ⇒ λ > 0 i =1. i. n. (ii). ∑ g λ ({ x } ) = 1 ⇒ λ = 0 i =1. i. n. (iii). ∑ g λ ({ x } ) > 1 ⇒ λ < 0 i =1. i. λ 測度具有優美數學性質,其解為隱函數解或方程式解,一般而言,必須利 用數值方法求 λ 之一元(n-1)次方程式的解,只有唯一解可供選擇,為單值模糊測 度。 λ 測度只可能為可加性測度,或次可加性測度,或超可加性測度,三者其中 之ㄧ,絕不可能為混合模糊測度,不符合實際需求。. 參、Zadeh 之 P 測度 Zadeh(1978)提出計算簡易之 P 測度,為最簡明之模糊測度,P 測度之定義如 下: 令 X = { x1 , x2 ,… , xn } , n ≥ 3,若 ( X , 2 X ) 為可測空間,且集合函數 g p : 2 X → [ 0,1] 滿 足下列條件時,則稱 g p 為可能性測度(Possibility measure),則稱 P 測度: (i). g p (φ ) = 0, g p ( X ) = 1. (ii) ∀A, B ∈ 2 X , A ∩ B = φ , A ∪ B ≠ X ⇒ g p ( A ∪ B ) = max ⎡⎣ g p ( A) , g p ( B ) ⎤⎦ P 測度為封閉式(closed form)顯函數解,但不靈敏,只有唯一解可供選擇,為 單值模糊測度。P 測度只可能為次可加性測度,不可能為可加性測度,或超可加 性測度,亦不可能為混合模糊測度,不符合實際需求。. 6.

(14) 第二節. Choquet 積分迴歸模式之簡介. 模糊積分是以模糊測度為基礎的一種綜合評估方法,常被應用於決策問題, 且模糊積分並不需要假設評估項目間相互獨立,此方法能有效的整合具有相關性 存在的項目。本研究引用一個常用的模糊積分法 Choquet 積分來建立迴歸模式, 作為預測效力之方法。. 壹、Choquet 積分之定義與性質 只要模糊測度事先選定,則可進而求取模糊積分值,Choquet(1953)最早提出 模糊積分,稱為 Choquet 積分,Sugeno(1974)亦提出其專有之模糊積分,稱為 Sugeno 積分,劉湘川(2006)指出 Sugeno 積分不能視為常用可加性積分之推廣, 且只能處理重要度模糊測度值及得分可測函數值均須經正規化,故本研究只考慮 Choquet 積分,其定義與性質如下: 一、Choquet 積分之定義 令集合函數 g : 2 X → [ 0,1] 為可測空間 ( X , 2 X ) 上之一模糊測度, h : X → [ 0,1] 為 X 上之一可測函數,若 h ( x1 ) ≤ h ( x2 ) ≤ … ≤ h ( xn ) , Ai = { xi , xi +1 ,… , xn } , i = 1, 2,… , n ,. Choquet 積分如下: n. Cg ( h ) = ∫ hdg = h ( x1 ) g ( A1 ) + ∑ ( h ( xi ) − h ( xi −1 ) ) g ( Ai ) def. def. i =2. def. 稱 Cg ( h ) = ∫ hdg 為可測函數 h 關於模糊測度 g 之 Choquet 積分值,求取 Choquet 積 分值之過程,稱為 Choquet 積分值,其基本概念如圖 2-1 所示。. 7.

(15) 圖 2-1 Choquet 積分基本概念 二、Choquet 積分之性質 h ( x1 ) ≤ h ( x2 ) ≤ … ≤ h ( xn ) , Ai = { xi , xi +1 ,… , xn } n. g ( Ai ) = g ( xi , xi +1 ,… , xn ) = ∑ g ( xk ) i = 1, 2,… , n k =i. n. n. i =2. i =1. ⇒ C g ( h ) = h ( x1 ) g ( A1 ) + ∑ ( h ( xi ) − h ( xi −1 ) ) g ( xi , xi +1 ,… , xn ) = ∑ ⎡⎣ h ( xi ) g ( xi ) ⎤⎦. 若模糊測度為正規可加時,Choquet 積分值即為 h ( x1 ) , h ( x2 ) ,… , h ( xn ) 分別以 g ( x1 ) , g ( x2 ) ,… , g ( xn ) 為加權值之加權平均,即表 Choquet 積分為常用可加性積分. 之推廣。. 貳、Choquet 積分迴歸模式之定義 劉湘川(2007)提出基於模糊測度之 Choquet 積分迴歸模式,針對不同模糊測 度可得基於該測度之 Choquet 積分迴歸模式,定義如下所列: (i) 令集合函數 g : 2 X → [ 0,1] 為可測空間 ( X , 2 X ) 上之一模糊測度. 8.

(16) (ii) hi : X → [ 0,1] 為 X 上受試 i 之一可測函數,滿足 hi ( x1 ) ≤ hi ( x2 ) ≤ … ≤ hi ( xn ) , Aj = { x j , x j +1 ,… , xn } , j = 1, 2,… , n. (iii) 令 yi , i = 1, 2,… , N 為受試 i 之應變數 y 之得分. (. ). ∫ hi dg = hi ( x1 ) g ( A1 ) + ∑ hi ( x j ) − hi ( x j −1 ) g ( Aj ) 為可測函數 hi 關於模糊測度 n. def. (iv). j =2. g 之 Choquet 積分. 稱 yi = α + β ∫ hi dg + ei , ei ∼ N ( 0, σ 2 ) , i = 1, 2,… , N 為 可 測 函 數 hi 基 於 模 糊 測 度 g 之 Choquet 積分迴歸模式(Choquet integral regression model),簡稱為 Choquet 積分迴 歸模式,其估計式如下: yˆi = αˆ + βˆ ∫ hi dg , i = 1, 2,… , N. N. S yh =. ⎡. 1. N. 1 N. 其中 βˆ = S yh / S hh , αˆ =. 1 yi − βˆ ∑ N i =1. ⎤⎡. N. 1. N. ∑ ∫ h dg i =1. i. ⎤. N. ∑ ⎢⎣ y − N ∑ y ⎥⎦ ⎢⎣ ∫ h dg − N ∑ ∫ h dg ⎥⎦ i =1. i. i =1. i. i. k =1. k. N −1. 1 N ⎡ ⎤ h dg hk dg ⎥ − ∑ ∑ i ⎢∫ ∫ N k =1 ⎦ S hh = i =1 ⎣ N −1 N. 2. 第三節 脊迴歸之理論與模式 迴歸分析是種應用廣泛的分析工具,在觀念上它是以簡單的線性方程式來表 達自變數和因變數之間的結構關係。假設有 n 個樣本點,一個應變數及 p 個自變 數均已標準化,迴歸模式可利用下面矩陣型式表示: Y = Xβ +ε. 其中, Y = [Y1 , Y2 ,… , Yn ]. T. 9.

(17) ⎡ X 11 ⎢X 21 X =⎢ ⎢ ⎢ ⎣⎢ X n1. X1 p ⎤ X 2 p ⎥⎥ ⎥ ⎥ X np ⎦⎥ n× p. X 12 X 22 X n2. β = ⎡⎣ β1 , β 2 ,… , β p ⎤⎦ ε = [ε 1 , ε 2 , … , ε n ]. T. T. ε ~ N ( 0, σ 2 ). 壹、脊迴歸 脊迴歸分析法是由 Hoerl 及 Kennard 於 1970 年提出,主要是為了解決自變數 間呈現共線性的情形,其精神在於迴歸係數β之估計過程中損失少許的準確度 (accuracy),而提高估計精確度(precision)之一種偏量估計式,估計式所得的脊迴 ∧. 歸參數估計量 β ( R ) 雖具偏誤性,但在共線性存在的情況下,脊迴歸估計量所求得 ∧. 之總變異卻比最小平方估計量 β 之總變異小,表示估計結果較為穩定、精確。如 圖 2-2。. 圖 2-2. b 與 b R 之抽樣分配. 10.

(18) 脊迴歸的構想是對標準化後的解釋變異矩陣 X ,將 X T X 矩陣的對角線元素上 加上一個很小的正數 k 。經由適當 k 值的選擇,希望透過此增量來穩定β的估計 ∧. 量,降低不當資訊對係數估計的影響。 β( R ) 之表示如下: ∧. ∧. ∧. β( R ) = ( X T X + kI ) X T X β = Z β −1. Z = ( X T X + kI ) X T X −1. ∧. ∧. 其中, β ( R ) :脊迴歸參數估計量、 β :迴歸參數估計量 可以知道脊迴歸參數估計量與線性迴歸參數估計量的關係為一線性轉換。因此, 脊迴歸的模式利用矩陣表現如下: ∧. ∧. β( R ) = Z β ∧. ∧. Y * = X β( R ) + ε = X ⋅ Z β + ε. 貳、共線性程度之判斷 當自變數間存在高度共線性時,可能導致迴歸係數變異增加,而建立出一個 不理想的迴歸模式,所以需要有一測定自變數間共線性的方法,才能在建立模式 時,選擇避開共線性的問題,或是利用統計方法克服。 共線性就是自變數間有相關性存在,假設有 m 個自變數被考慮放入一迴歸模 式中,利用某一自變數與其他 m-1 個自變數間複迴歸決定係數來判斷共線性程 度。若第 i 個自變數與其他 m-1 個自變數的估計迴歸模式為: xˆi = si + ti ,1 x1 +. + ti ,i −1 xi −1 + ti ,i +1 xi +1 +. + ti ,m xm + ε i. 其中, si 為第 i 個複迴歸模式的截距項 ti ,m 為第 i 個複迴歸模式的迴歸係數. ε i 為第 i 個複迴歸模式的迴歸誤差項. 11. i = 1, 2,… , m.

(19) 此模式得到的迴歸判定係數為: Ri2 =. SSRi SSToi. i = 1, 2,… , m. 因此可以定義出一個稱為變異數膨脹因子(VIF, Variance Inflation Factor),來作為 測度共線性的指數: VIFi =. 1 1 − Ri2. i = 1, 2,… , m. 當 Ri2 = 0 時,第 i 個自變數與其他 m-1 個自變數間無相關,則 VIFi = 1;當 Ri2 → 1 , 第 i 個自變數與其他 m-1 個自變數趨近於完全相關,則 VIFi → ∞ ,故 VIFi 具有測度 共線性的能力。 VIF 值的計算可以利用自變數的相關係數矩陣來求得,VIFi 值為下式之矩陣對. 角線元素:. ( rxx + kI ). −1. rxx ( rxx + kI ). −1. 其中, rxx 為自變數的相關係數矩陣、 I 為單位元素 ,來求得不同 在判斷出自變數存在著高度共線性時,可調整不同的 k 值(0< k <1) k 值的 VIF 值,並找出 VIF 值最接近 1 的 k 值來作為脊迴歸參數估計量的最佳偏化. 常數。. 參、估計最小均方誤差法 適當 k 值之選取法,常用之方法除了以變異數膨脹因子(VIF)作為選擇依據 外,還有 Hoerl、Kennard 及 Baldwin(1975)所提出的「估計最小均方誤差法」(EMS, Estimating lest mean square error),其簡介如下: 若 βˆ = ( X ′X ) −1 X ′Y ~ N ( β , σ 2 ( X ′X )−1 ) , βˆk = ( X ′X + kI n )−1 X ′Y , X ′X = I n. 12.

(20) 且k =. nσ 2 ,則 MSE β k ≤ MSE β β ′β. ( ). ( ) 2. nσ Hoerl、Kennard 及 Baldwin 建議取偏性 k 值為: k = ,根據此 k 值所決定之脊 ′. β β. 迴歸模式,稱為「估計最小均方誤差法」脊迴歸模式,簡稱 EMS 脊迴歸模式。. 13.

(21) 第三章. 研究方法. 本章首先介紹本研究之研究流程,接著介紹用來改善預測效力之「基於 L 測 度之 Choquet 積分迴歸模式」以及驗證假設模型是否適當的交互驗證法。. 第一節 研究流程 本研究流程如下圖所示: 閱讀相關文獻. 學習 MATLAB 程式語言. 擬定研究主題. 理論估算推導. 撰寫程式. 收集實證資料. 實證結果分析. 撰寫研究結果 圖 3-1 研究流程. 14.

(22) 第二節 基於 L 測度之最適 Choquet 積分迴歸模式 壹、劉湘川之 L 測度 當欲進行綜合評價之多種屬性間具共線性時,應考慮採用模糊測度與模糊積 分,劉湘川(2006)指出 Sugeno(1974)之 λ 測度不恆存在非可加性測度,Zadeh(1978) 之 P 測度靈敏度不足,且均只有唯一之選擇,劉湘川(2007)提出具靈敏度、恆存 在非可加性測度、具定義一致性,且有無限多選擇之改進模糊測度「 L 測度」 ,進 而提出「基於 L 測度之 Choquet 積分迴歸模式」 ,將更有利於具潛在交互作用資料 之綜合評價與預測分析。 L 測度之定義如下: 令 X = { x1 , x2 ,… , xn } , n ≥ 3 ,若 ( X , 2 X ) 為可測空間,且集合函數 g L : 2 X → [ 0,1] 滿 足下列條件時,則稱 g L 為 L 測度: (i). g L (φ ) = 0, g L ( X ) = 1, L ∈ [ 0, ∞ ). (ii) ∀A ⊂ X , n − A + ( A − 1) L > 0 ⇒ g L ( A) = max ⎡⎣ g L x∈ A. ( A − 1) L∑ g ({ x}) ⎡1 − max ⎡ g ({ x} ) ⎤ ⎤ ({ x})⎤⎦ + ⎡ ⎣ ⎦⎦ ⎣ ⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) x∈ A. L. x∈ A. x∈ X. L. L. L 測度具包容性,當 L = 0 時, L 測度 g L 即為 P 測度;當 L > 0 時, L 測度 g L 即. 為 L 值之遞增函數, L 值越小, L 測度越趨近於次可加性測度; L 值越大, L 測度 越趨近於超可加性測度。 L 測度之解為封閉式(closed form)顯函數解,為多值模糊 測度,有無限多值解可供選擇。 L 測度隨 L 值而變,不同之 L 值決定了不同之模 糊測度,可能為可加性測度,可能次可加性測度,可能超可加性測度,亦可能為 混合模糊測度,符合實際選擇所需。. 15.

(23) 貳、L 測度之性質證明 一、 L 測度滿足正規性、單調性、及完備一致性 當 L = 0 , L 測度即為 P 測度。 (一)正規性 當 L > 0 , ∀A ⊂ X , 0 ≤ A ≤ X = n 0 ≤ ∑ g L ({ x} ) ≤ ∑ g L ({ x} ) x∈ A. x∈ X. ( A − 1) L∑ g ({ x}) 得0 ≤ ≤1 ⎡⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) x∈ A. L. x∈ X. L. 可知 ∀A ⊂ X ⇒ 0 ≤ g L ( A ) ≤ 1 即 L 測度滿足正規性。 (二)單調性 當 L > 0 , ∀A ⊂ B ⊂ X , A ≤ B ≤ X = n 得 max ⎡⎣ g L ({ x} ) ⎤⎦ ≤ max ⎡⎣ g L ({ x} ) ⎤⎦ , 0 ≤ ∑ g L ({ x} ) ≤ ∑ g L ({ x} ) x∈A. x∈B. x∈ A. x∈B. ( A − 1) ≤ ( B − 1) , n − A ≤ n − B ⇒ ( A − 1) L ⎡⎣ n − B ⎤⎦ ≤ ( B − 1) L ⎡⎣ n − A ⎤⎦ ⇒0≤. ( A − 1) L ( B − 1) L ≤ ≤1 ⎡⎣ n − A + ( A − 1) L ⎤⎦ ⎡⎣ n − B + ( B − 1) L ⎤⎦. ( A − 1) L∑ g ({ x}) ( B − 1) L∑ g ({ x}) 得0 ≤ ≤ ≤1 ⎡⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) ⎡⎣ n − B + ( B − 1) L ⎤⎦ ∑ g ({ x} ) x∈A. L. x∈B. x∈ X. L. L. x∈ X. 可知 ∀A ⊂ B ⊂ X ⇒ 0 ≤ g L ( A ) ≤ g L ( B ) ≤ 1 即 L 測度滿足單調性。 (三)完備一致性 當 L > 0 , if A = φ ⇒ A = 0, ( n − A ) > 0. 16. L.

(24) 得 max ⎡⎣ g L ({ x} ) ⎤⎦ = ∑ g L ({ x} ) = 0 x∈φ. x∈φ. 可知 g L (φ ) = 0 當 L > 0 , if A = X ⇒ A = X = n, ( n − A ) = 0. ( n − 1) L ∑ g ({ x}) ( A − 1) L∑ g ({ x}) 得 = =1 ⎡⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) ⎡⎣( n − 1) L ⎤⎦ ∑ g ({ x} ) L. x∈ A. x∈ X. x∈ X. L. x∈ X. L. L. 可知 g L ( X ) = 1 即 L 測度滿足完備一致性。 二、 L 測度 g L 為 L 值之遞增函數 ∀L1 , L2 ∈ [ 0, ∞ ) , ∋ L1 < L2. max ⎡⎣ g L1 ({ x} ) ⎤⎦ = max ⎡⎣ g L2 ({ x} ) ⎤⎦ , ⎡1 − max ⎡⎣ g L1 ({ x} ) ⎤⎦ ⎤ = ⎡1 − max ⎡⎣ g L2 ({ x} ) ⎤⎦ ⎤ x∈ A x∈ A x∈ A x∈ A ⎣ ⎦ ⎣ ⎦. ( A − 1) L ∑ g ({ x}) ( A − 1) L ∑ g ({ x}) 得 ≤ ⎡⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) ⎡⎣ n − A + ( A − 1) L ⎤⎦ ∑ g ({ x} ) 1. 2. L1. x∈ A. 1. x∈ X. L2. x∈ A. 2. L1. x∈ X. L2. 可知 ∀L1 < L2 ⇒ g L ( A ) ≤ g L ( A ) 1. 2. 即 L 測度 g L 為 L 值之遞增函數。. 參、基於 L 測度之最適 Choquet 積分迴歸模式 若 ∀L ∈ [ 0, ∞ ) , yi = α L + β L ∫ hi dg L + ei , ei ∼ N ( 0, σ 2 ) , i = 1, 2,… , N 為基於 L 測度之 ⎡. N. (. ) ⎤⎦. Choquet 積分迴歸模式,且 L* = arg min ⎢ ∑ yi − αˆ L − βˆL ∫ hi dg L ⎥ ,則基於 L 測度之 L∈[ 0, ∞ ) ⎣ i =1. 最適 Choquet 積分迴歸方程表示如下: yˆi = αˆ L* + βˆL* ∫ hi dg L* , i = 1, 2,… , N. 17. 2.

(25) 其中 βˆL = S yh / S hh , αˆ L = *. *. ⎡ 1 ∑ ⎢ yi − N S yh = i =1 ⎣ N. 1 N. N. 1 yi − βˆL* ∑ N i =1. ⎤⎡ 1 yi ⎥ ⎢ ∫ hi dg L* − ∑ N i =1 ⎦⎣ N −1 N. 1 N ⎡ ⎤ h dg − ∑ ⎢ ∫ i L* N ∑ ∫ hk dg L* ⎥ k =1 ⎦ S hh = i =1 ⎣ N −1 N. N. ∑ ∫ h dg. N. ∑ ∫ h dg k =1. k. i. i =1. L*. L*. ⎤ ⎥ ⎦. 2. 第三節 交叉驗證法 資料採礦(Data Mining)應用於選取模型時,交叉驗證法(Cross-Validation 簡稱 為 CV)是一個常用且有效的方法,目的主要在驗證假設的模型是否適當,其方法 為:將樣本資料分為訓練集(Training set)與測試集(Test set)兩組,訓練集資料用以 估計參數並建立模型,而測試集資料則是用來測試訓練集所建立的模型,驗證之 結果可作為最佳模型選擇的指標。若為類別資料,則以「準確度」為準則,找出 最高「準確度」的分類模型,若為連續資料,則以 MSE 為準則,找出最小 MSE 的預測模型。. 壹、Hold out set CV Hold out set CV 是最普遍 CV 的型式;在這個方法中,將樣本資料分為訓練 集與測試集兩組,以訓練集資料建構模型(參數、係數),再將測試集資料放入 此模型中,驗證模型預測的結果。此方法的優點在於作法較為方便,且如果樣本 數充足的話,可達到一致性;缺點為此方法的效度取決於訓練樣本及測試樣本劃 分方式,意味著在不同的劃分方式之下其結果會有顯著的不同。. 貳、Leave-Many-Out CV(Leave-M%-Out CV) 雖然在樣本數充足之下 Hold out set CV 可達到一致性,但是若我們不知道目. 18.

(26) 前訓練集與測試集的資料是否夠多到足以達到一致性時,模型的參數將會受到驗 證樣本數目與分割方式的影響。因此,Leave-Many-Out CV(Leave-M%-Out CV) 與 K-fold CV 即是用來降低參數對分割方法之敏感度。 假定 Nt 與 N v = N − N t 分別為訓練樣本及測試樣本的個數,又 1 ≤ M ≤ 100 、 Nv =. NM 。Leave-Many-Out CV(Leave-M%-Out)即是每次固定隨機抽取 M % 的樣 100. 本作為測試樣本, (1 − M %) 的樣本為訓練樣本。注意,此時樣本可抽選的組合有 C ( N , N v ) 個, C (a, b) =. a! 。當 N v > 1 時,此方法交互組合的數量將會擴大, b !(a − b)!. 造成計算的複雜。因此實證上常常使用 K-fold CV 取代 Leave-Many-Out CV。. 參、K-fold CV K-fold CV:對 Leave-Many-Out CV 進行改善。將資料集合分為 K 個子集合, 重複 Leave-Many-Out CV 進行 K 次。每一次都將其他 K-1 個子集合合併為訓練樣 本;計算在 K 次試行之下平均誤差。此方法的優點是會降低樣本劃分所造成的誤 差,且較適用於小樣本的資料。每一個樣本實際上都會被當作測試樣本一次,被 當作訓練樣本 K-1 次。隨著 K 的增加,其變異會逐次下降。其缺點為訓練過程必 須運算 K 次。只要 K 個子集合當中樣本數相同,使用者可自行決定樣本的數量。. 肆、Leave-One-Out CV(LOO CV) LOO CV 是 LMO CV 的特例之一,假定訓練樣本個數 N v = 1 ,其餘 N − 1 個樣 本皆為訓練樣本。此方法有幾個優點;省略了挑選分群個數的問題、每次都以最 多個數 N − 1 進行模型的訓練、計算的誤差將大幅下降。但是相對的此方法運算過 程較為繁複。. 19.

(27) 第四章. 實證分析. 當綜合測驗中之分測驗間具共線性時,傳統可加性整合計分方法,常效果不 彰。本研究以 2005 年苗栗縣某私立中學國中部具共線性之三種自然科(理化、 生物、地球科學)畢業成績預測國中基本學力測驗自然科成績之資料為例,針對 λ 測度、P 測度及 L 測度之三種 Choquet 積分迴歸模式,與常用之 EMS 脊迴歸、. VIF 脊迴歸模式及複線性迴歸模式等六種預測模式,採用交互驗證法,進行預測 效力之比較研究。. 第一節 資料來源之探討 本研究採用資料為 2005 年苗栗縣某私立中學國中部具共線性之三種自然科 畢業成績以及其國中基本學力測驗自然科成績,三種自然科之畢業成績因每班授 課老師評分標準不一,所以同樣能力值之學生在不同班級可能得到不同之分數, 因此本研究採用以班級為單位之資料來進行預測比較。而基本學力測驗成績是以 「量尺分數」表示,量尺分數是透過統計方法,由答對題數轉換而來,其目的是 要呈現每一位考生的測驗學科在所有考生中的相對位置,以劃分出不同能力級 別。量尺分數為 1~60 分,即分為六十個能力等級;分數越高,代表該科能力越 好。 國中基測分數是用來作為全國高中、高職、五專錄取學生的依據之一,若用 傳統的記分方式或答對題數來表示,當然也能反映考生的表現,但比較不能精確 說出它們之間真正的能力值差異。比如說某測驗的題目特別艱深,雖然滿分是 100 分,但多數人只得了 20、30 分,結果就是能力較高的學生也許只比中等生多 10 分而以,這樣似乎不能正確地「測量」出它們之間的差異。又如,以一份總題數 50 題的科目為例,答對三十六題比答對三十五題多一題,答對四十九題比答對四. 20.

(28) 十八題也多一題,同樣是相差一題,代表的能力差異卻不相同。為了讓國中基測 的分數更能反映出考生間的能力差異,採用適當的數學轉換,將靠近中間的量尺 稍微加以壓縮,並將兩端的量尺稍微拉長開來,如此所得的量尺分數更能精確反 映出考生間不同的能力差距。. 第二節 研究工具與不同模式比較之步驟 本研究的目的主要是比較基於 λ 測度、P 測度及 L 測度之三種 Choquet 積分迴 歸模式,與常用之 EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式等六種預測 模式之效力,以 MATLAB 撰寫上述六種之迴歸模式及 K-fold CV 與 Leave-One-Out CV 之程式,進行預測效力之比較。而選擇 MATLAB 的原因為 MATLAB 採用直 譯指令的方式,故使用起來較為容易,且其涵蓋範圍甚廣,當然也可採用其他軟 體,如 C++、Java 語言,只要模式之呈現結果具有可信度即可。 進行不同迴歸模式之預測比較包括以下步驟: 步驟一: 首先以 SPSS 軟體針對各個班級進行複迴歸模式適合度檢定,判斷複迴 歸模式是否適合應用於本研究資料。 步驟二: 依據在學間理化、生物、地球科學三種學科上課之時數比例,分別訂定 4 1 1 6 6 6. 該三種學科之單科重要度,即單科模糊測度為: , , ,據以求出各種 學科組合之 λ 測度及 P 測度值,同時分別針對 L = 1, 2,… ,100 ,求出各種 學科組合之 L 測度值。 步驟三: 接續上步驟,分別求出自然科畢業成績自變數集基於 L 測度之 Choquet 積分值,以及 λ 測度、P 測度之 Choquet 積分值。 步驟四: 將收集之學生資料依班級為單位,以國中基本學力測驗自然科成績為應 變數,理化、生物、地球科學三種學科畢業成績為自變數,分別採取 5-fold CV、10-fold CV、Leave-One-Out CV 求取下列不同迴歸模式之. 21.

(29) MSE:基於 λ 測度、P 測度及 L 測度之 Choquet 積分迴歸模式、EMS 脊 迴歸、VIF 脊迴歸模式及複線性迴歸模式。 步驟五: 在相同 CV 取法下,以 MSE 為準則,進行上述各種迴歸模式之預測效 力比較,並找出最小 MSE 的預測模型。. 第三節 成效評估 以 SPSS 軟體針對各個班級進行複迴歸模式適合度檢定,其複迴歸模式摘要 表如下所示。由下列各表可知各個班級 F 檢定之顯著性均小於 0.005,因此複迴 歸模式適合應用於本研究資料。. 表 4-1 忠班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .713(a). .508. .472. 7.8244487. .508. 14.116. 3. 41. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-2 孝班的複迴歸模式適合度檢定摘要表 R. R平方. 調過後的 R平方. .603(a). .363. .310. 變更統計量 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. 7.1431935. .363. 6.852. 3. 36. .001. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-3 仁班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .696(a). .485. .444. 6.9393494. .485. 11.928. 3. 38. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 22.

(30) 表 4-4 愛班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .749(a). .561. .527. 8.0470133. .561. 16.618. 3. 39. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-5 信班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .532(a). .283. .235. 5.9615420. .283. 5.923. 3. 45. .002. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-6 義班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .736(a). .542. .511. 5.0690905. .542. 17.723. 3. 45. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-7 和班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .586(a). .343. .300. 4.6152009. .343. 7.843. 3. 45. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 表 4-8 平班的複迴歸模式適合度檢定摘要表 變更統計量. R. R平方. 調過後的 R平方. 估計的標準誤. R平方 改變量. F改變. 分子自由度. 分母自由度. 顯著性 F改變. .658(a). .433. .397. 5.3370133. .433. 11.968. 3. 47. .000. (a)預測變數:(常數), 地球科學, 理化, 生物. 由於 L 測度之 L 值具有無限多種選擇,因此可得到在不同 L 值的情況下,基 於 L 測度 Choquet 積分迴歸模式之 MSE,其關係圖如下所示。由圖形可知當 L 值. 23.

(31) 介於 0 到 20 之間,其對應的 MSE 差距較明顯,當 L 值大於 20 之後,其對應的 MSE 差距較不顯著,且 L 測度 Choquet 積分迴歸模式之 MSE 並不一定隨 L 值遞 增或遞減。. 基於L測度Choquet積分迴歸模式之MSE. 63.8 5-ford CV. 63.6. 10-ford CV. LOO CV. 63.4 63.2 63 62.8 62.6 62.4 62.2 62. 0. 10. 20. 30. 40. 50. 60. 70. 80. 90. 100. 基於 L測度 Choquet積分迴歸模式之 L值. 圖 4-1 忠班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 基於L測度Choquet積分迴歸模式之MSE. 57 5-ford CV. 10-ford CV. LOO CV. 56 55 54 53 52 51 50 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-2 孝班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 24.

(32) 基於L測度Choquet積分迴歸模式之 MSE. 56 5-ford CV. 10-ford CV. LOO CV. 55. 54. 53. 52. 51. 50. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-3 仁班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 基於L測度Choquet積分迴歸模式之MSE. 68 5-ford CV. 67.8. 10-ford CV. LOO CV. 67.6 67.4 67.2 67 66.8 66.6 66.4 66.2. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-4 愛班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 25.

(33) 基於L測度Choquet積分迴歸模式之 MSE. 40 5-ford CV. 10-ford CV. LOO CV. 39.5. 39. 38.5. 38. 37.5. 37. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-5 信班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 基於L測度Choquet積分迴歸模式之MSE. 25.4 5-ford CV. 10-ford CV. LOO CV. 25.2. 25. 24.8. 24.6. 24.4. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-6 義班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 26.

(34) 基於L測度Choquet積分迴歸模式之 MSE. 22. 5-ford CV. 10-ford CV. LOO CV. 21.9 21.8 21.7 21.6 21.5 21.4 21.3. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-7 和班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 基於L測度Choquet積分迴歸模式之MSE. 29.3 5-ford CV. 10-ford CV. LOO CV. 29.2 29.1 29 28.9 28.8 28.7 28.6. 0. 10. 20 30 40 50 60 70 80 基 於 L測 度 Choquet積 分 迴 歸 模 式 之 L值. 90. 100. 圖 4-8 平班的 L 測度 Choquet 積分迴歸模式之 L 值與 MSE 關係圖. 27.

(35) 根據不同迴歸模式預測比較之步驟逐一施行後,可以得到不同交互驗證法 時,基於 λ 測度、P 測度及 L 測度三種模糊測度之 Choquet 積分迴歸模式、EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式之預測效力的比較,如表 4-1、表 4-2、 表 4-3 所示。在 5-fold CV、10-fold CV 與 Leave-One-Out CV 取法下,三種模糊 測度 Choquet 積分迴歸模式中,基於 L 測度之最適 Choquet 積分迴歸模式均優於 基於 λ 測度及 P 測度之 Choquet 積分迴歸模式,且基於 L 測度之最適 Choquet 積 分迴歸模式優於 EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式,並同時驗證 了兩種脊迴歸模式一致優於複線性迴歸模式,在兩種脊迴歸模式之比較中,EMS 脊迴歸可能稍微優於 VIF 脊迴歸模式。. 表 4-9 不同迴歸模式 5-fold CV 之 MSE Choquet 積分迴歸模式. VIF 脊迴歸. EMS 脊迴歸. λ 測度. P 測度. L 測度. MSE. 複迴歸. 忠. 75.1250. 74.7351. 70.6500. 63.3850. 63.5642. 63.3830. 孝. 54.1029. 53.9894. 52.0456. 50.8974. 52.1242. 50.2292. 仁. 76.0539. 74.7250. 65.6496. 54.7293. 55.1594. 54.5190. 愛. 78.0623. 77.3747. 72.1660. 67.4364. 67.9698. 67.1139. 信. 41.6109. 41.3393. 38.8965. 37.7760. 38.1836. 37.5073. 義. 27.8158. 27.6499. 26.9838. 24.3744. 24.4354. 24.3686. 和. 23.4220. 23.3873. 23.3581. 21.9037. 21.8551. 21.8551. 平. 31.5115. 31.2974. 29.1089. 28.8321. 29.0239. 28.7348. 28.

(36) 表 4-10 不同迴歸模式 10-fold CV 之 MSE Choquet 積分迴歸模式. VIF 脊迴歸. EMS 脊迴歸. λ 測度. P 測度. L 測度. 68.6524. 68.4766. 66.2965. 62.8481. 63.3734. 62.8029. 孝. 56.8642. 56.7311. 54.9626. 54.8235. 56.2464. 53.9863. 仁. 57.7038. 57.3692. 54.1978. 52.3026. 52.9862. 51.9090. 愛. 79.4165. 78.8462. 73.7351. 67.4194. 67.8464. 67.1725. 信. 40.9659. 40.8017. 39.1390. 39.1751. 39.5841. 38.9040. 義. 27.5817. 27.4180. 26.9192. 24.5986. 24.6128. 24.5955. 和. 22.3836. 22.3576. 22.3733. 21.3619. 21.4093. 21.3421. 平. 33.7178. 33.4790. 30.7224. 28.7111. 28.7975. 28.6842. MSE. 複迴歸. 忠. 表 4-11 不同迴歸模式 Leave-One-Out CV 之 MSE Choquet 積分迴歸模式. VIF 脊迴歸. EMS 脊迴歸. λ 測度. P 測度. L 測度. 66.1898. 66.0825. 64.7306. 62.1486. 62.6279. 62.1263. 孝. 57.8092. 57.6696. 55.0142. 53.7157. 54.8072. 53.0839. 仁. 53.8631. 53.5959. 51.4729. 50.8204. 51.5640. 50.3790. 愛. 72.5144. 72.0838. 68.6882. 66.4641. 66.8845. 66.2185. 信. 39.6150. 39.4544. 38.0250. 37.3000. 37.6806. 37.0489. 義. 27.6374. 27.5628. 27.1955. 25.1698. 25.2587. 25.1504. 和. 22.9313. 22.8927. 22.4288. 21.5541. 21.5899. 21.5413. 平. 31.4193. 31.3285. 29.9142. 29.0975. 29.1882. 29.0669. MSE. 複迴歸. 忠. 29.

(37) 第五章. 結論與建議. 當欲進行預測分析之多個自變數間具共線性時,複線性迴歸模式預測效力不 佳,本研究針對不同模糊測度 Choquet 積分迴歸模式與脊迴歸模式進行比較分 析,並於本章撰寫結論與後續相關建議。. 第一節 研究結論 當欲進行預測分析之多個自變數間具共線性時,複線性迴歸模式預測效力常 不佳,傳統改善方法為採用脊迴歸模式,本文建議採用新近發展之「模糊測度 Choquet 積分迴歸模式」 。並針對 Sugeno 之 λ 測度、Zadeh 之 P 測度及劉湘川之 L 測度之三種 Choquet 積分迴歸模式,與常用之 EMS 脊迴歸、VIF 脊迴歸模式及複 線性迴歸模式等六種預測模式,依據在學間理化、生物、地球科學三種學科上課 之時數比例,分別訂定該三種學科之單科測度,以苗栗某中學八個班級國中理 化、生物、地球科學畢業成績預測高中入學自然科基本能力測驗成績為實例,採 用不同交互驗證法,進行預測效力之比較研究。研究結果顯示,三種模糊測度 Choquet 積分迴歸模式中,基於 L 測度之 Choquet 積分迴歸模式,優於基於 λ 測度 及 P 測度之 Choquet 積分迴歸模式,且基於 L 測度之 Choquet 積分迴歸模式優於 EMS 脊迴歸、VIF 脊迴歸模式及複線性迴歸模式,並同時驗證了兩種脊迴歸模式 一致優於複線性迴歸模式,在兩種脊迴歸模式之比較中,EMS 脊迴歸可能稍微優 於 VIF 脊迴歸模式。 當欲處理整合記分之問題時,由於因子間存在著共線性的特性,不能以傳統 加法型測度觀念進行處理,本文利用 Choquet 積分對於非加法型測度的處理能 力,建立一個適用之迴歸模式,有效改善其預測效力,並以 MATLAB 撰寫其相 關程式,可供日後研究者參考使用。. 30.

(38) 第二節 後續相關研究建議 模糊測度及模糊積分的概念已被廣泛地應用在各種學科領域中,依其所應用 的情形做適當之改變,但常用之測度還是以 Sugeno 之 λ 測度及 Zadeh 之 P 測度 為主,在上述兩種測度不符合實際需求時,經由本研究分析比較結果,建議可採 用劉湘川之 L 測度進行研究。 傳統迴歸模式已被廣泛地使用,且統計迴歸理論至今已發展的相當完備,然 而有些問題卻是傳統迴歸模式難以處理的,當欲處理的資料具共線性時,便無法 準確地處理,一般改善方法為採用脊迴歸模式,本文建議亦可採用以模糊積分為 基礎之 Choquet 積分迴歸模式來進行處理,且在本研究六種迴歸模式中,基於 L 測 度之 Choquet 積分迴歸模式具有最佳的預設效力。. 31.

(39) 參考文獻 中文部分 紀家維(2004)。應用脊迴歸分析於資料採礦預測系統之研究。輔仁大學應用統計 研究所碩士論文。 國中基本學力測驗推動工作委員會(2007)。九十六年國民中學學生基本學力測驗 Q&A。民 96 年 5 月 20 日,取自:http://www.bctest.ntnu.edu.tw/96QA.htm。 陳振東、莊順斌(2001)。模糊積分應用於決策分析之研究。中國工業工程學會九 十年度年會暨學術研討會,高雄,民國九十年十二月八日。 黃繼寬(2005)。考慮產業差異下信用評分模型效力分析以 Cross Validation 為例。 東吳大學經濟學系碩士論文。 劉湘川(2006)。基於 P 測度之改進模糊測度及其模糊積分。測驗統計年刊,第十 四輯上期,1-15。 劉湘川(2007)。 L 測度及其 Choquet 積分迴歸模式。測驗統計年刊,第十五輯上 期,未出刊。台中市,國立台中教育大學。 劉應興(1997)。應用線性迴歸模型。台北市,華泰書局。499-503、533-541。. 英文部分 Browne, M. W. (2000). Cross-validation methods. J. Math. Psych., 44, 108-132. Choquet, G. (1953). Theory of capacities. Annales de l’Institut Fourier, 5, 131-295. Dempster, A. P. (1967). Upper and lower probabilities induced by multi-valued mapping. Annals of Mathematical Statistics, 38, 325-339. Devijver, P. A. & J. Kitter, (1982). Pattern Recognition: A Statistical Approach. Prentice-Hall London. Hoerl, A. E., R. W. Kenard and K. F. Baldwin(1975). Ridge regression: Some. 32.

(40) simulation. Communications in Statistics. 4(2), 105-123. Liu, Hsiang-Chuan, Yu-Du Jheng, Wen-Chih Lin, Guey-Shya Chen. (2007). A novel fuzzy measure and its Choquet regression model, International conference on machine Learning and Cybernetics 2007, 19-22 August 2007. Hong Kong. China, accepted. Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence 2(12), 1137–1143. (Morgan Kaufmann, San Mateo) Shafer, G. (1976). A Mathematical Theory of Evidence. Princeton University Press, Princeton, New Jersey. Sugeno, M. (1974). Theory of fuzzy integrals and its applications. PhD thesis, Tokyo Institute of Technology, Tokyo, Japan. Wang, Z. and Klir, G. J. (1992) Fuzzy measure theory. Plenum Press, New York, 43-49. Zadeh, L. A. (1978). Fuzzy sets as a basis for a theory of possibility, Fuzzy Sets and Systems, vol.1 , 3-28.. 33.

(41)

參考文獻

相關文件

股市預測在人工智慧領域是一個重要的議題。我們的研究使用混合式的 AI 以預測 S&amp;P 500 芭拉價值指標和 S&amp;P 500 芭拉成長股之間的價值溢價;S&amp;P 600 小

要上傳 NCBI 註解序列必須要做的流程為基因預測、rRNA 預測、跟 tRNA 預 測。做基因預測後還要做基因比對才可以上傳 NCBI,如圖 34 所示。在 NCBI

針對 WPAN 802.15.3 系統之適應性柵狀碼調變/解調,我們以此 DSP/FPGA 硬體實現與模擬測試平台進行效能模擬、以及硬體電路設計、實現與測試,其測 試平台如圖 5.1、圖

In short-term forecasting, it is better to apply Grey Prediction Model on Steer-By-Wire and Carbon NanoTube-Field Emission Displays; and to apply Holt exponential smoothing model

圖 2-13 顯示本天線反射損耗 Return Loss 的實際測量與模擬圖,使用安捷倫公司 E5071B 網路分析儀來測量。因為模擬時並無加入 SMA

樹、與隨機森林等三種機器學習的分析方法,比較探討模型之預測效果,並獲得以隨機森林

在行為科學中,曾發展出許多不同的理論模型藉以預測人們的行為。 1970年代的 理性行為理論 (Theory of Reasoned Action, TRA),以及1980年代的計畫行為理論 (Theory

本研究以 CCR 模式的投入導向模式進行差額變數分析 ,針 對相對無效率之