• 沒有找到結果。

無母數主成份迴歸與向前迴歸的比較 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "無母數主成份迴歸與向前迴歸的比較 - 政大學術集成"

Copied!
38
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學系研究所 碩士學位論文. 立. 政 治 大. ‧ 國. 學. 無母數主成份迴歸與向前迴歸的比較 Nonparametric Principal Components. ‧. Regression Compared with Forward Regression. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 研究生 : 陳弘叡 撰 指導教授 : 黃子銘 博士. 中 華 民 國 一佰零五 年 七 月.

(2) 謝誌 從台中來到政大念書這兩年,回首過去,要感謝的人很多, 首先謝謝我的家人,在背後默默的支持我、鼓勵我及給予經濟來 源,讓我求學這兩年沒有後顧之憂,順利把學業完成。 其次,我要感謝我的指導教授黃子銘老師,剛開始在討論主 題方向時候,我沒有特別想法,子銘老師一步一步引導我,每次 討論過程中,子銘老師都能激發出我的想法,讓我發現問題及養 成解決問題的能力,碩士班這兩年,不只在老師身上學到程式技 術,也在專業能力受益匪淺,而且老師和學生亦師亦友,讓我在 完成論文的過程中始終保持著一份輕鬆愉悅的心。 最後我要感謝政大網球校隊及統研所的同學,從碩一進入統研 所及球隊,讓我整個時間滿檔,課業方面、擔任助教及練球時間 要同時兼顧讓我剛開始吃不消。還好有一群同學、朋友的幫忙, 讓我漸漸消化,相信這兩年在政大的學習,有那麼多人幫助與相 處過的人們,讓我在台北有段難忘的回憶。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) 摘要 在一般線性迴歸模型當中,當樣本數大於變數個數時候,我們 是以最小平方法來估計迴歸參數。然而當變數個數大於樣本個數 時,會造成共線性問題,導致參數無法估計,無法確認個別自變 數對依變數有多大影響。為了解決共線性問題,我們透過變數選 取來選取重要的變數,選取方法包含主成份分析法 (PCA)及向前 選取法 (FS). 我 們 使 用 的 模 型 為 無 母 數 加 成 迴 歸 模 型 , 透 過 backfitting algorithm 來估計整個迴歸函數,個別函數則以無母數方法,使 用B-Spline 來估計。我們把兩種選取方法應用在無母數加成模型 裡,以積分絕對誤差為判斷標準,透過不同變數及不同生成模型 類型的模擬,來判斷哪種配適選取方法較合適。模擬結果可以發 現,多數情況下,FS的表現比PCA來得好。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 關 鍵 字 : 變數選取、主成份分析法、向前選取法、無母數加成 迴歸模型、backfitting alogorithm、 B-Spline、 積分絕對誤差。.

(4) Abstract In a general linear regression model, when the sample size n is greater than the number of variables p, it is common to use the least squares method to estimate the parameters in the regression model. When n < p, the parameters in the regression model cannot be estimated due to collinearity, so it is necessary to perform variable selection before estimating the parameters. In this thesis, I compare two variable selection methods in nonparametric additive regression. The first method is based on principal component analysis (PCA), and the second method is based on forward selection (FS). The integrated absolute error is used to evaluate the performance of these two methods in simulation studies. The simulation results show that FS performs better than PCA in most cases.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Keywords: Variable Selection, Principal Component Analysis, Forward Selection, Nonparametric Additive Model, Backfitting Alogorithm, B-Spline, Integral Absolute Error..

(5) 目錄 第 一章 緒論 第 二章 文獻探討 2.1 加成模型及Backfitting Algorithm . . . . . . . . . . 2.2 B-Spline迴歸模型 . . . . . . . . . . . . . . . . . . . 第 三章 研究方法 3.1 主成份分析法(PCA) . . . . . . . . . . . . . . . . . 3.1.1 定義 . . . . . . . . . . . . . . . . . . . . . . 3.1.2 主成份計算方式 . . . . . . . . . . . . . . . 3.1.3 選取標準 . . . . . . . . . . . . . . . . . . . 3.2 向前選取法(FS) . . . . . . . . . . . . . . . . . . . . 3.2.1 定義 . . . . . . . . . . . . . . . . . . . . . . 3.2.2 檢定加成模型的變數是否顯著 . . . . . . . . 3.2.3 選取標準 . . . . . . . . . . . . . . . . . . . 第四 章 模擬資料與比較結果 4.1 模擬資料 . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 實驗一,變數個數p = 20, n > p, 模擬10次 . 4.1.2 實驗二,變數個數p = 200, n = p, 模擬10次 4.1.3 實驗三,變數個數p = 250, n < p, 模擬7次 . 4.2 比較結果 . . . . . . . . . . . . . . . . . . . . . . . 第五 章 結論與建議 5.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 建議 . . . . . . . . . . . . . . . . . . . . . . . . . .. 立. 政 治 大. . . . . . . . . . . . . . . . . . . . . . . . .. n. al. y. . . . . .. er. io. sit. Nat. . . . . . . . .. Ch. engchi. 1. i n U. v. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. ‧. ‧ 國. 學. . . . . . . . .. . . . . .. . . . . .. . . . . . . . . . . . . . . . .. 5 7 7 8 10 10 10 10 11 12 12 12 14 15 15 17 21 23 26 28 28 28.

(6) 表目錄 政 治 大. 4.1 實驗一,Linear, PCA邊界節點的平均積分絕對誤差比較 . . . 4.2 實驗一,Linear, PCA與FS的平均積分絕對誤差比較 . . . . . . 4.3 實驗一,Nonlinear, PCA邊界節點的平均積分絕對誤差比較 . 4.4 實驗一,Nonlinear, PCA與FS的平均積分絕對誤差比較 . . . . 4.5 實驗一,符合PCA加成模型,PCA邊界節點的平均積分絕對 誤差比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 實驗一,符合PCA加成模型,PCA與FS的平均積分絕對誤差 比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 實驗一,PCA在K, C, A, T 下的平均選取主成份個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 實驗一,FS在三種生成模型下的平均選取變數個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9 實驗二,Linear, PCA與FS的平均積分絕對誤差比較 . . . . . . 4.10 實驗二,Nonlinear, PCA與FS的平均積分絕對誤差比較 . . . 4.11 實驗二,符合PCA加成模型, PCA與FS的平均積分絕對誤差 比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12 實驗二,PCA在K, C, A, T 下的平均選取主成份個數及模擬 時間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.13 實驗二,FS在三種生成模型下的平均選取變數個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.14 實驗三,Linear, PCA與FS的平均積分絕對誤差比較 . . . . . 4.15 實驗三,Nonlinear, PCA與FS的平均積分絕對誤差比較 . . . 4.16 實驗三,符合PCA加成模型, PCA與FS的平均積分絕對誤 差比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.17 實驗三,PCA在K, C, A, T 下的平均選取主成份個數及模擬 時間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.18 實驗三,FS在三種生成模型下的平均選取變數個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17 17 18 18. 表 5.1 實驗四,Linear, PCA與FS的平均積分絕對誤差比較 . . . . . . 表 5.2 實驗四,Nonlinear, PCA與FS的平均積分絕對誤差比較 . . . . 表 5.3 實驗四,符合PCA加成模型, PCA與FS的平均積分絕對誤差 比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30 31. 表 表 表 表 表. y. sit. al. n. 表. io. 表. Nat. 表 表 表. er. 表. ‧. 表. 學. 表. 立. ‧ 國. 表 表 表 表 表. Ch. engchi U. 2. v ni. 19 19 20 20 21 21 22 22 23 23 24 24 25 25. 31.

(7) 表 5.4 實驗四,PCA在K, C, A, T 下的平均選取主成份個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 表 5.5 實驗四,FS在三種生成模型下的平均選取變數個數及模擬時 間比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v. 32 32.

(8) 圖目錄 圖 4.1 模擬流程圖. 政 治 大. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v. 16.

(9) 第一章. 緒論. 在一般線性迴歸模型當中,我們以最小平方法 (least square method)估計迴歸參數,而最小平方法只適合處理樣本個數大於 變數個數的資料,當樣本數夠大時,參數收斂速度越快(Andersen and Saxil [2]). 當樣本個數接近變數個數時,最小平方法得到的參 數估計較不穩定。而樣本個數遠小於變數個數時,會造成共線性 問題,此時參數無法估計,無法確認個別自變數對依變數有多大 影響。要解決共線性問題,可以透過變數選取,刪除不必要的變 數。 在變數選取中,我們會刪除不重要的自變項,不納入迴歸模 型,常用的變數選取方法包括主成份分析法 (principal component analysis, PCA)及向前選取法 (forward selection, FS),主成份分析 把原有的自變數轉換成各別獨立的主成份選進迴歸模型中,在 分析時候,通常只會選擇一部份的主成份,因此可以降低變數個 數。而向前選取方法為自變數的選取是依照自變數對模型的解釋 能力大小是否達到顯著水準,依次選取進入迴歸模型之中,以逐 步增加的方式,直到解釋能力無法達到解釋門檻,則完成選取重 要變數的動作。 我們研究當中,會使用無母數迴歸模型,因為跟一般有母數 迴歸模型相比,無母數迴歸模型較有彈性,可以估計未知函數型 態。如果使用最一般無母數迴歸模型,會有參數過多難以估計的 問題 (Andersen and Saxil [2]), 因此我們使用無母數加成模型。 此外在加成模型當中,若是變數個數還是很多,如同跟線性迴歸 模型一樣,會造成參數估計的困難度,所以變數選取還是必須使 用。在研究當中,參考 (Barrios and Umali [3]) 文章提到利用主成. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 5. i n U. v.

(10) 份分析法使用無母數加成迴歸模型模擬不同條件下的效果。另外 我們也考慮迴歸中常用的向前選取法,透過不同模擬來比較這兩 種方法(主成份分析法和向前選取法)的選取效果。 本篇文章基本架構如下,首先在第二章作文獻探討,並詳細 說明此篇所使用的模型及限制,第三章研究方法裡我們說明幾種 變數選取方法的使用方式及透過不同選取方法來估計未知函數, 第四章模擬資料與比較結果透過不同模型和不同變數個數,選擇 哪種方法較佳,第五章為結論。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v.

(11) 第二章. 文獻探討. 此章,將會介紹我們所關心的無母數加成迴歸模型 (Buja and Hastie and Tibshirani [4]), 無 母 數 加 成 迴 歸 模 型 為 迴 歸 函 數型態未知,且將個別未知函數以相加形式加總為一個加成 模型,一般利用kernel 或B-Spline 估計未知函數。我們則使用 backfitting algorithm (Friedman and Stuetzle [9]) 來估計迴歸函 數,個別函數則使用B-Spline函數來估計。第一節我們先介紹加成 模型及backfitting algorithm, 第二節介紹B-Spline迴歸模型。. 立. sit. y. ‧. ‧ 國. 學. 加 成 模型 及Backfitting Algorithm. Nat. 2.1. 政 治 大. n. al. er. io. 加 成 模 型 為 最 早 於1981年 由Friedman and Stuetzle 所 提 出 一個廣義的加成模型,其文章標題為(projection pursuit regression,PPR). 到了1989年,Buja and Hastie and Tibshirani 提出一個 無母數多元迴歸模型,此為PPR 的特例,是我們使用的加成模 型。假設在一個資料集合中: {(xij , yi ), i = 1, . . . , n, j = 1, . . . , p}. n代 表 資 料 個 數 ,p代 表 變 數 個 數 。 其 中yi 為 每 筆 資 料 數(依 變 數), {xi1 , . . . , xip }ni=1 代表解釋變數, 則此加成迴歸模型 (2.1)如 下: p. Ch. yi =. engchi. X. i n U. fj (xij ) + εi .. v. (2.1). j=1. 其中 εi ∼ N (0, σ 2 ) 且E[fj (xij )] = 0, 假設誤差項和解釋變數獨立。模型裡的 迴 歸 函 數 使 用backfitting algorithm來 估 計 , 而 每 個fj 是 使 用B7.

(12) Spline函數來估計,接著介紹backfitting algorithm. backfitting algorithm 最早於1981年由Friedman and Stuetzle 所提出,其步驟如下: • Step 1. 將模型 (2.1)中的f2 (xi2 ) + · · · + fp (xip ) + εi 設為新誤 差ε∗i , 即考慮模型 yi = f1 (xi1 ) + ε∗i , 以無母數方法來估計f1 . 令fˆ1 為所得到的f1 估計. • Step 2. 假 設 我 們 已 得 到f1 , . . . , fk 的 估 計 為fˆ1 , . . . , fˆk ,接 著 估fk+1 . 將yi − fˆ1 (xi1 ) − · · · − fˆk (xik )設為新的反應變數yi∗ , P 將 pj=k+2 fj (xij )+εi 設為新誤差ε∗i . 考慮模型 yi∗ = fj (xij )+ε∗i , 其 中j = k + 1, 以 無 母 數 方 法 來 估 計fk+1 .令fˆk+1 為 所 得 到 的fk+1 估計.. 立. 政 治 大. ‧ 國. 2.2. ‧. B-Spline迴 迴歸 模 型. 學. • Step 3. 重複Step 2,得到fˆ1 , . . . , fˆp .. er. io. sit. y. Nat. 在backfitting algorithm中,每次僅需完成一個單變量迴歸函 數的估計,因此計算並不困難。在本節我們將介紹使用B-Spline進 行單變量迴歸函數的估計。考慮以下單變量迴歸模型(2.2):. n. (2.2) ayli = g(xi) + εi, i = 1, . . . , n. i v n Ch 其中g為未知的迴歸函數,可使用B-Spline近似來估計。 U i e n g c h [12]) 所提出,可用於近 B-Spline曲線於1946年由 (Schoenberg 似平滑函數。B-Spline函數為分段多項式函數 (piece-wise polynomial),其中分段點稱為節點 (knots)。B-Spline函數由B-Spline基 底函數 (basis)所組成。在單變量迴歸模型(2.2)當中,函數g可以透 過B-Spline基底函數的組合來近似,而組合係數再以最小平方法做 估計。以下我們介紹估計的細節。 假設模型(2.2)的g為一定義於[a, b]區間上的函數,則g可以透 過[a, b]區間上的一組B-Spline基底函數來做近似。B-Spline基底函 數由一組節點向量t = (t1 , . . . , tk )以及分段多項式最高次數m所 決定,而基底函數個數為k + m + 1個,可利用de Boor遞迴公式. 8.

(13) (DeBoor [6]) 算出。則在[a, b]區間上,g可以透過 gβ = β1 B1 + · · · + βk+m+1 Bk+m+1 .. (2.3). 來近似。其中β1 ,. . .,βk+m+1 為基底的係數,B1 ,. . .,Bk+m+1 為基 底 函 數 。 在 式 子(2.2)中 , 當g被 式 子(2.3)的 函 數 所 取 代 時 , 式 子(2.2)可改寫成矩陣型式: . . . B (x ) . . . Bk+m+1 (x1 ) y  1 1  1    ..  .. .. ..  . = . . .    B1 (xn ) . . . Bk+m+1 (xn ) yn. 立. β1 .. .. . . βk+m+1. . .     . . ε   1    ..   +  . .. 政 治 大. εn. . ‧ 國. 學. 我們用向量Y 來表示n筆觀察值,其未知函數g 的B-Spline基 底函數以X矩陣來表示,而對應的基底係數以向量β表示,最後用 向量ε來表示誤差項,可以將上述矩陣表示為(2.4):. ‧. Y = Xβ + ε.. (2.4). Y = Xb + e. al. (2.5). er. io. sit. y. Nat. 來表示此迴歸模型。 假設b 是一個(k + m + 1) × 1的向量,當作β的 估計量,則此估計迴歸模型可寫成為(2.5):. v. n. 其中e 為n × 1的殘差向量,此時e可以從資料和b來計算。我們定 義矩陣的轉置以()T 來代替,為了求出未知基底係數β 的最小平方 估計量,我們寫成殘差平方和:. Ch. engchi. i n U. S(b) = (Y − Xb)T (Y − Xb). (2.6). 並使其極小化,我們取S(b) 的一次微分並令其為0: ∂S(b) = −2X T Y + 2X T Xb = 0. ∂b. (2.7). b = (X T X)−1 X T Y.. (2.8). 因此我們解出b: ˆ 由β = β代 ˆ 回式 由 式 子(2.8)可 知 b = (X T X)−1 X T Y ,令 為β.再 子(2.3),可得gβˆ,作為g 的估計。 9.

(14) 第三章. 研究方法. 本研究中考慮比較二種變數選取方法:主成份分析法 (principal component analysis, PCA) 和向前選取法 (forward selection, FS). 本章中將詳細說明這兩種方法的定義、計算方式和選取標準 以及如何使用於無母數加成迴歸模型。第一節先介紹主成份分析 法,第二節介紹向前選取法。. 政 治 大. 立. ‧ 國. ‧. 主成 份分 析法 (PCA) 定義. y. Nat. 3.1.1. 學. 3.1. sit. n. al. er. io. 主成份分析於1901年由 (Pearson [11]) 所提出,再於1933年由 (Hotelling [10]) 加以發展的一種統計方法。主成份分析能將資料簡 化,將多個有相關的變數簡化成少數幾個沒有相關的主成份。各 個線性獨立的主成份為由原始變數線性組合而得,透過最大化主 成份的變異數來保有原來變數最多資訊。因此透過主成份分析所 得到的新變數具有三個重要特色,分別為簡化性、獨立性、代表 性。 3.1.2. Ch. engchi. i n U. v. 主成份計算方式. 主成份分析主要目標是將多個變數簡化成少數幾個沒有相關 的主成份 (Component),解決方法為找原來變數的線性組合使其變 異數最大,計算方式如下: 一般情況下,考慮X為一個n × p已標準化的資料矩陣,其 中n為觀察值的筆數,而p為變數個數。首先先算出樣本共變異. 10.

(15) 數 矩 陣S = X T X/(n − 1), 接 著 對S進 行 奇 異 值 分 解 得 到S = U ΣU T ,其中Σ為一數值遞減的對角線矩陣(第一個元素最大),對 角線上的元素由大到小設為λ1 , λ2 , . . . , λp , U 是正交矩陣。令 . . u  1j   ..  uj =  .  . upj. . 為U 的第j行,另一方面,令xj 為X的第j行, j = 1, . . . , p. 則可得 到p 個主成份:. 政 治 大. ‧ 國. 立. 第p個主成份為. 學. 第一個主成份為 Xu1 = u11 x1 + u21 x2 + · · · + up1 xp ; 第二個主成分為 Xu2 = u12 x1 + u22 x2 + · · · + up2 xp ; .. .. . . Xup = u1p x1 + u2p x2 + · · · + upp xp .. y. Nat. 選取標準. sit. 3.1.3. ‧. 由上述式子可以看出每個主成份為原始變數的線性組合,組合係 數則稱為loadings.. n. al. er. io. 在迴歸分析當中,尤其當變數個數大於樣本個數時,會產生 共線性問題,當利用主成份分析來解決共線性問題時,選擇主成 份的個數是兩難的問題。選取過少主成份可能造成代表性不足, 選取過多主成份時,則雖然解釋能力高,但簡化程度低。我們使 用兩種判斷標準,選取我們認可的主成分個數,代進無母數加成 迴歸模型中。兩種判斷主成份個數準則分別為Kaiser 準則、累積 解釋能力。 首先Kaiser 準則於1960年由凱莎所提出 (陳順宇 [1]), 由上述 奇異值分解所算出Σ 矩陣裡的λ1 , λ2 , . . . , λp 稱為特徵值。保留特 徵值大於1的主成份,特徵值小於1則不取,此法則最常被用來選 取主成份個數。接著累積解釋能力為選取的累積解釋變異比例達 到我們所設定的門檻,我們設此門檻為80%,由我們選進的主成份 個數累積解釋變異比例達到80%以上則停止選取。. Ch. engchi. 11. i n U. v.

(16) 3.2 3.2.1. 向 前 選取 法(FS) 定義. 向前選取法於1960年由 (Efroymson [7]) 所提出,在一般建立 迴歸模型時,研究者都希望能以最少的變數建立最準確的模型, 但如何選擇對模型解釋能力較強的少數幾個變數呢?此方法在一 開始,在所有變數中選擇對應變數yi 最有解釋能力的變數進入模 型,接著在其餘變數中選擇找出最有解釋能力的變數加入模型, 如此重複地選取剩餘解釋能力最強的變數,直到變數解釋能力不 再顯著為止。 在線性複迴歸模型中,是以t 值(及其顯著水準α值)作為決定 某個自變數是否顯著的判斷標準,如果某個自變數迴歸係數的|t| 值大於α對應的臨界值,便決定該自變數顯著。但在無母數加成 迴歸模型中,參考 (Fan and Jiang [8]) 的廣義概似比檢定應用於 加成模型的作法,我們使用廣義概似比檢定 (Generalized Likelihood Ratio Tests簡稱GLRT,) 檢定變數是否顯著。 GLRT 是一種用來比較兩種模型的檢定方法。其中一個模型 較複雜,另一個模型較簡單,等同於大模型和小模型的比較,他 們的差異僅止於參數的多寡。在理論上當模型參數增多時,模型 的配適度較好。但是假如大模型的檢定結果不顯著,這時候我們 就使用小模型來詮釋資料即可。GLRT的功能便是幫助我們找到能 代表資料的簡單模型。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 3.2.2. Ch. engchi. i n U. v. 檢定加成模型的變數是否顯著. 假設我們有n 個資料樣本{(yi , xi1 , . . . , xip ), i = 1, . . . , n, j = 1, . . . , p}. 其中n 代表資料個數,p 代表變數個數。我們使用迴歸 中的向前選取法,一次選取一個最顯著的變數進來,直到沒有顯 著的變數可以加入模型為止。 以下描述測試一個變數是否顯著。假設選進來的變數為x∗1 ,. . . ,x∗D−1 , 其中D − 1為選進來的變數個數,接著我們從剩下的變數當 中,輪流選一個變數進來考慮是否顯著,此時令x∗D 為暫時考慮進. 12.

(17) 來的變數,考慮模型為無母數加成迴歸模型(3.1): yi =. D X. fj∗ (x∗ij ) + εi .. (3.1). j=1. 其中εi 為獨立服從N (0, σ 2 ) 的隨機變數數列,f1∗ ,. . .,fD∗ 為未知函 數,已知我們使用B-Spline來獲得fˆj∗ 估計。由於fˆj∗ 由B-Spline的基 底函數及組合係數所組成,因此我們使用自由度為大模型和小模 型的差異,檢定統計量為卡方統計量,計算方式如下: • Step 1. 考慮檢定問題: H 立 0. 政 治 大 : f = 0 V.S. H : f 6= 0. ∗ D. 1. ∗ D. ‧ 國. 學. 假設D − 1個變數進來之後。檢定第D個變數是否進來,是否 對依變數(yi )有顯著的貢獻.. ‧. • Step 2. 假設εi 服從常態,N (0, σ 2 ),在大模型下(H1 )取對數的概 似函數為:. n. er. io. 在小模型下(H0 )取對數的概似函數為:. al. i n U. v. D−1 n X 1 X n fj∗ (x∗ij ))2 . (yi − − log(2πσ 2 ) − 2 2 2σ i=1 j=1. Ch. engchi. (3.2). sit. y. Nat. n D X 1 X n (yi − fj∗ (x∗ij ))2 . − log(2πσ 2 ) − 2 2 2σ i=1 j=1. (3.3). 其中fj∗ 透過backfitting algorithm 以及B-Spline函數來估計.在 H0 、H1 之下的σ 2 估計量ˆ σ02 、 σ ˆ12 為: 1 1 RSS0 , σ ˆ12 = RSS1 . n n 其中RSS0 和RSS1 為H0 、H1 之下的殘差平方和: σ ˆ02 =. RSS0 =. n X. D−1 X. i=1. j=1. (yi −. fˆj∗ (x∗ij ))2 ,. 13. RSS1 =. n X. D X. i=1. j=1. (yi −. fˆj∗ (x∗ij ))2 ..

(18) • Step 3. 接著把ˆ σ02 、 σ ˆ12 、 fˆj 帶(3.2)、(3.3)分別為: n `(H1 ) = − (log(RSS1 ) + log(2π) − log(n) + 1). 2 n `(H0 ) = − (log(RSS0 ) + log(2π) − log(n) + 1). 2 • Step 4. 最後根據Wilks 定理,在大樣本下,−2[`(H0 ) − `(H1 )] 服 從自由度為 (k + 3) 的卡方檢定統計量,其中k 為節點個數, 即: RSS0. 政 治 大 RSS > 0. 當−2λ 夠大時,則拒絕虛無假設H ,表示第D個變數選進來, 立 對依變數(y )有顯著的貢獻. −2λn = −2[`(H0 ) − `(H1 )] = n log. 1. n. 0. i. ‧ 國. 學. y. Nat. 選取標準. io. sit. 3.2.3. ‧. 上述輪流選一個變數進來,檢定的結果假如選進來的變數每個 都不顯著(不拒絕H0 ), 則停止向前選取,不再增加新的變數進來。 若是有顯著的變數,則選取最顯著的變數(卡方檢定統計量最大 的)進來,並繼續向前選取。. n. al. er. 由於檢定量t 值只能估計一個參數β, 在估計無母數迴歸函數 時,B-Spline同時由多個組合係數所組成。因此要同時估計多個組 合係數時,使用卡方檢定統計量值χ2 , 我們設顯著水準α = 0.05.. Ch. engchi. 14. i n U. v.

(19) 第四章. 模擬資料與比較結果. 在第三章研究方法中,使用了主成份分析法、向前選取法簡 稱為PCA、FS,我們將透過不同模擬來比較這兩種方法。 首先,我們先定義一個標準來判斷哪種配適方法較好,叫做 積分絕對誤差,簡稱為I, 其定義如下: I=. Z [0,1]p. |f (x) − fˆ(x)|dx =. Z [0,1]p. 學. ‧ 國. 立. 政 治 大. |g(x)|dx. (4.1). ‧. 其中f (x) 代表真實函數,fˆ(x) 代表估計函數。另外g(x) 為真 實函數f (x) 與估計函數fˆ(x) 的差異,其值越小,代表誤差越小越 準確,我們使用蒙地卡羅方法近似式子 (4.1)之積分。. sit. n. al. er. io. 模擬資料. y. Nat. 4.1. Ch. i n U. v. 本章節的模擬資料是由加成模型(2.1)型式所生成,我們使 用Backfitting Algorithm估計迴歸函數,而個別函數fj (xij ) 由BSpline函數估計。B-Spline 基底函數個數為k + m + 1, 其中k為節點 個數,我們設此個數為(n1/3 ) ,節點位置設為等距排放,m設為3. 其中資料x11 ,. . .,xnp 為區間[0,1]的隨機均勻分配,n 為資料個數, 設為200筆,p為變數個數。我們生成模型類型有線性模型、非線 性模型、符合PCA加成模型,分別為(4.2),(4.3),(4.4), 其中ε誤差項 服從常態,平均數為0, 標準差為0.1 :. engchi. y = −3 + 2x1 − 9x2 + ε. (4.2). y = sin(x1 ) + cos(x2 ) + ε. (4.3). 15.

(20) y = sin(pc1) + cos(pc2) + ε. (4.4). 其中x1 , x2 為變數1, 2. pc1,pc2為平均主成份的係數乘上標準 化後的資料,除了x1 , x2 外,還有其他變數,分別為20、200、250 個變數。式子(4.4)符合PCA加成模型,以獨厚PCA的選取方法所 生成的模型。 其中在PCA方法裡有兩個選取主成份個數方法:分別為kaiser 準則(特徵值大於1)、累積解釋能力(解釋門檻設為80%),再加上 兩個極端的選取方法做比較,分別為選取所有主成份個數、選 取兩個主成份個數共四種選取主成份個數方法,簡稱為K、C、A 、T .再加上FS, 下去比較在使用不同變數個數:分別為20、200、250 個變數下,哪種配適方法較佳。下圖為模擬流程圖:. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 4.1: 模擬流程圖. 16. i n U. v.

(21) 實 驗 一 ,變 數 個 數 p = 20, n > p, 模擬 10次 次. 4.1.1. 在變數個數為20個,低維度狀況下,透過主成份分析,設定 邊界節點範圍後,然而我們代入新的取值點,發現轉換過後新的 主成份會超出邊界節點範圍,我們做符合邊界節點與不符合邊界 節點的比較及PCA和FS的比較。 • 1. 我們生成模型以式子(4.2) 線性模型做生成,模擬10次所得 到的平均積分絕對誤差結果:. 政 治 大 表 4.1: 實驗一,Linear, PCA邊界節點的平均積分絕對誤差比較 立 ‧. ‧ 國. 不符合邊界節點(b.knots)範圍 823.200(1909.32) 823.700(1909.79) 998.200(1861.72) 2.18000(0.17412). 學. Nat. y. K C A T. 符合邊界節點(b.knots)範圍 823.100(1909.41) 823.300(1909.98) 998.800(1861.94) 2.32300(0.37850). sit. n. al. er. io. 由表4.1可知,在低維度、線性模型狀況下,符合邊界節點與不符 合邊界節點的積分絕對誤差沒有太大差異。在Kaiser 準則 (K)的 誤差比累積解釋能力 (C)小,分別為823.1及823.3。. Ch. engchi. i n U. v. 表 4.2: 實驗一,Linear, PCA與FS的平均積分絕對誤差比較. P CA FS K, 823.100(1909.41) C, 823.300(1909.98) 0.13050(0.03244) A, 998.800(1861.94) T, 2.32300(0.37850). 17.

(22) 由表4.2可知,FS的誤差比PCA來得小很多,PCA在選取兩個主 成份個數 (T )誤差為最小。 • 2. 生成模型以式子(4.3)非線性模型做生成,模擬10次所得到 的平均積分絕對誤差結果: 表 4.3: 實驗一,Nonlinear, PCA邊界節點的平均積分絕對誤差比較. K C A T. 符合邊界節點(b.knots)範圍 22.4900(56.0264) 22.5500(55.9999) 37.4700(64.2069) 0.22370(0.01337). 立. 不符合邊界節點(b.knots)範圍 23.8300(55.5812) 23.4500(55.6717) 39.2700(62.7497) 0.22370(0.01337). 政 治 大. ‧. ‧ 國. 學. 由表4.3可知,在低維度、非線性模型狀況下,符合邊界節點與不 符合邊界節點的積分絕對誤差沒有太大差異。在選取兩個主成份 個數 (T )的誤差最小,選取所有主成份個數 (A)的誤差最大。 表 4.4: 實驗一,Nonlinear, PCA與FS的平均積分絕對誤差比較. n. er. io. al. sit. y. Nat. P CA FS K, 22.4900(56.0264) C, 22.5500(55.9999) 0.04299(0.01059) A, 37.4700(64.2069) T, 0.22370(0.01337). Ch. engchi. i n U. v. 由表4.4可知,FS的誤差比PCA來得小很多,為0.04299,PCA在 選取兩個主成份個數 (T )的誤差為最小,為0.2237.. • 3. 生成模型以式子(4.4)符合PCA加成模型,模擬10次所得到 的平均積分絕對誤差結果: 18.

(23) 表 4.5: 實驗一,符合PCA加成模型,PCA邊界節點的平均積分絕對誤差比較. K C A T. 符合邊界節點(b.knots)範圍 61.6800(180.697) 62.0700(180.804) 77.3000(181.182) 0.66840(0.04138). 不符合邊界節點(b.knots)範圍 70.3800(179.505) 68.1700(179.616) 90.3600(177.328) 0.66840(0.04138). 由表4.5可知,在低維度、符合PCA加成模型狀況下,符合邊界節 點的積分絕對誤差比不符合邊界節點來得小。在選取兩個主成份 個數 (T )的誤差最小,都為0.6684, 選取所有主成份個數 (A)誤差 最大,分別為77.3 與90.4.. 學. ‧ 國. 立. 政 治 大. 表 4.6: 實驗一,符合PCA加成模型,PCA與FS的平均積分絕對誤差比較. n. y. sit. er. io. al. ‧. Nat. P CA FS K, 61.6800(180.697) C, 62.0700(180.804) 0.46100(0.03520) A, 77.3000(181.182) T, 0.66840(0.04138). Ch. engchi. i n U. v. 由表4.6可知,FS的誤差比PCA來得小很多,為0.461,PCA在選 取兩個主成份個數 (T )的誤差最小,為0.6684.. 19.

(24) • 4. PCA,FS模擬10次的平均選取變數個數及模擬時間的結 果。模擬環境為ASUS的X455LF 14吋筆電,作業系統WIN10 、處理器為i5-5200U,記憶體為4GB、DDR3L。 其中PCA 不 管生成甚麼(模型)都不影響他的選取主成份個數,都由均勻 分配資料下去選取: 表 4.7: 實驗一,PCA在K, C, A, T 下的平均選取主成份個數及模擬時間比較 主成份個數,(標準差),[模擬時間] 9.5,(0.53),[<1min] 13.2,(0.42),[<1min] 20,(0),[<1min] 2,(0),[<1min]. 線性,非線性,符合PCA加成模型 K C A T. 立. 政 治 大. ‧. ‧ 國. 學. 由表4.7可知,PCA在Kaiser準則 (K)時,選取9.5個主成份個數, 在累積解釋能力 (C)時,選取13.2個主成份個數,模擬時間皆小 於1分。. y. Nat. n. al. Ch. 變數個數,(標準差),[模擬時間] 3.1,(1.10),[<1min] 2.8,(1.23),[<1min] 6.2,(1.81),[<1min]. er. io. FS 線性模型 非線性模型 符合PCA加成模型. sit. 表 4.8: 實驗一,FS在三種生成模型下的平均選取變數個數及模擬時間比較. engchi. i n U. v. 由表4.8可知,FS在非線性模型下,選取較少變數個數,為2.8個, 較符合我們生成模型的變數個數。在符合加成模型時,選取較多 變數個數,為6.2個,模擬時間皆小於1分。. 20.

(25) 4.1.2. 實 驗 二 ,變 數 個 數 p = 200, n = p, 模擬 10次 次. 在變數個數為200個,PCA和FS模擬10次的平均積分絕對誤 差比較。 • 1. 我們生成模型以式子(4.2)線性模型做生成,模擬10次所得 到的平均積分絕對誤差結果: 表 4.9: 實驗二,Linear, PCA與FS的平均積分絕對誤差比較. 立. 學 ‧. ‧ 國. 政 治 大. P CA FS K, 57.9000(122.641) C, 56.2600(122.078) 0.16370(0.02245) 13 13 A, 3 × 10 (1 × 10 ) T, 2.32400(0.13478). sit. y. Nat. 由表4.9可知,FS的誤差比PCA來得小很多,為0.1637 ,PCA在 累積解釋能力 (C)的誤差比Kaiser準則 (K)小,分別為56.3及57.9。. n. al. er. io. • 2. 生成模型以式子(4.3)非線性模型做生成,模擬10次所得到 的平均積分絕對誤差結果:. Ch. engchi. i n U. v. 表 4.10: 實驗二,Nonlinear, PCA與FS的平均積分絕對誤差比較. P CA FS K, 13.5600(25.8188) C, 7.03400(17.2418) 0.08956(0.00875) 13 13 A, 1 × 10 (3 × 10 ) T, 0.24240(0.00929). 21.

(26) 由表4.10可知,FS的誤差比PCA來得小很多,為0.0896.PCA在累 積解釋能力 (C)的誤差比Kaiser準則 (K)小,分別為7.0及13.6。 • 3. 生成模型以式子(4.4)符合PCA加成模型做生成,模擬10次 所得到的平均積分絕對誤差結果: 表 4.11: 實驗二,符合PCA加成模型, PCA與FS的平均積分絕對誤差比較. P CA FS K, 46.5600(94.8836) C, 31.8200(61.4939) 0.87990(0.05542) A, 4 × 1013 (1 × 1014 ) T, 0.63540(0.02774). 立. 政 治 大. ‧ 國. 學 ‧. 由 表4.11可 知 ,FS的 誤 差 通 常 比PCA來 得 小 很 多 , 為0.8799. 但PCA在選取兩個主成份個數 (T )時誤差比FS來得小,為0.6354.. sit. y. Nat. n. al. er. io. • 4. PCA,FS模擬10次的平均選取變數個數及模擬時間的結 果。模擬環境為ASUS的X455LF 14吋筆電,作業系統WIN10 、處理器為i5-5200U,記憶體為4GB、DDR3L。其中PCA 不 管生成甚麼(模型)都不影響他的選取主成份個數,都由均勻 分配資料下去選取:. Ch. engchi. i n U. v. 表 4.12: 實驗二,PCA在K, C, A, T 下的平均選取主成份個數及模擬時間比較 主成份個數,(標準差),[模擬時間] 78.7,(0.67),[<1min] 76.8,(0.42),[<1min] 200,(0),[<1min] 2,(0),[<1min]. 線性,非線性,符合PCA加成模型 K C A T. 22.

(27) 由表4.12可知,PCA在Kaiser準則 (K)時,選取78.7個主成份個 數,在累積解釋能力 (C)時,選取76.8個主成份個數,模擬時間皆 小於1分。 表 4.13: 實驗二,FS在三種生成模型下的平均選取變數個數及模擬時間比較 FS 線性模型 非線性模型 符合PCA加成模型. 立. 變數個數,(標準差),[模擬時間] 45.6,(7.72),[38min] 46.9,(15.32),[46min] 52.1,(14.82),[49min]. 政 治 大. ‧ 國. 實 驗 三 , 變數 個 數 p = 250, n < p, 模 擬7次 次. ‧. 4.1.3. 學. 由表4.13可知,FS在線性模型下,選取較少變數個數為45.6個, 較符合我們生成模型的變數個數,模擬時間38分。在符合PCA加 成模型時,選取較多變數個數為52.1個,模擬時間為49分。. sit. y. Nat. 在變數個數為250個,PCA和FS模擬7次的平均積分絕對誤差 比較。. er. io. • 1. 我們生成模型以式子(4.2)線性模型做生成,模擬7次所得 到的平均積分絕對誤差結果:. al. n. v i n C h PCA與FS的平均積分絕對誤差比較 表 4.14: 實驗三,Linear, engchi U P CA FS K, 8.13700(11.9682) C, 3.36900(1.83372) 0.16380(0.02298) 12 13 A, 6 × 10 (1 × 10 ) T, 2.31300(0.09778). 23.

(28) 由表4.14可知,FS的誤差比PCA來得小很多,為0.1638. PCA在 累積解釋能力 (C)的誤差比Kaiser準則 (K)小,分別為3.4及8.1. • 2. 我們生成模型以式子(4.3)非線性模型做生成,模擬7次所 得到的平均積分絕對誤差結果: 表 4.15: 實驗三,Nonlinear, PCA與FS的平均積分絕對誤差比較. P CA FS K, 1.27600(2.51391) C, 0.30090(0.09697) 0.09253(0.01334) A, 7 × 1011 (2 × 1012 ) T, 0.23860(0.00670). 立. 政 治 大. ‧ 國. 學 ‧. 由表4.15可知,FS的誤差比PCA來得小很多,為0.0925. PCA在 累積解釋能力 (C)的誤差比Kaiser準則 (K)小,分別為0.3及1.3.. y. Nat. sit. n. al. er. io. • 3. 我們生成模型以式子(4.4)符合PCA加成模型做生成,模 擬7次所得到的平均積分絕對誤差結果:. i n U. v. 表 4.16: 實驗三,符合PCA加成模型, PCA與FS的平均積分絕對誤差比較. Ch. engchi. P CA FS K, 3.86100(6.41741) C, 1.26400(1.29558) 0.90340(0.05664) A, 4 × 1012 (8 × 1012 ) T, 0.62330(0.02255). 24.

(29) 由 表4.16可 知 ,FS的 誤 差 通 常 比PCA來 得 小 很 多 , 為0.9034. 但PCA在選取兩個主成份個數 (T )時誤差比FS來得小,為0.6233.. • 4. PCA,FS模擬7次的平均選取變數個數及模擬時間的結果。 模擬環境為ASUS的X455LF 14吋筆電,作業系統WIN10 、處 理器為i5-5200U,記憶體為4GB、DDR3L。其中PCA 不管生 成甚麼(模型)都不影響他的選取主成份個數,都由均勻分配 資料下去選取:. 政 治 大. 表 4.17: 實驗三,PCA在K, C, A, T 下的平均選取主成份個數及模擬時間比較. 立. 主成份個數,(標準差),[模擬時間] 94,(0.58),[<1min] 85.1,(0.38),[<1min] 250,(0),[<1min] 2,(0),[<1min]. ‧. ‧ 國. 學. 線性,非線性,符合PCA加成模型 K C A T. y. Nat. sit. er. io. 由表4.17可知,PCA在Kaiser準則 (K)時,選取94個主成份個 數,在累積解釋能力 (C)時,選取85.1個主成份個數,模擬時間皆 小於1分。. al. n. v i n 表 4.18: 實驗三,FS在三種生成模型下的平均選取變數個數及模擬時間比較 Ch engchi U FS 變數個數,(標準差),[模擬時間] 線性模型 非線性模型 符合PCA加成模型. 96.7,(20.20),[115min] 85.6,(21.32),[105min] 74.3,(22.76),[81min]. 由表4.18可知,FS在符合PCA加成模型下,選取較少變數個數 為74.3個,較符合我們生成模型的變數個數,模擬時間81分。在線 性模型時,選取較多變數個數為96.7個,模擬時間為115分。 25.

(30) 本小節(4.1.3)為變數個數p = 250, PCA和FS模擬7次的平均 積分絕對誤差比較。而前一小節(4.1.2)為p = 200, PCA和FS模 擬10次的平均積分絕對誤差比較,為了比較p = 200 和p = 250 的 結果,針對p = 200 的情形,我們另外進行了PCA和FS模擬7次的 實驗,所得到的平均積分絕對誤差和模擬10次的絕對誤差沒有太 大差異,結果放在附錄。. 4.2. 比較結果 我們將模擬資料做出四項比較結果:. 立. 政 治 大. I: 變 數個 數 在 20個 個, n > p, 模 擬 10次 次. ‧ 國. 學. • 1. 在n > p下,透過主成份分析(PCA),轉換過後的主成份比 較容易超出邊界節點範圍。. ‧. sit. y. Nat. • 2. 在n > p、符合PCA加成模型下,符合邊界節點的誤差來 得比不符合邊界節點小。. n. al. er. io. • 3. 在n > p下,FS的配適遠比PCA好,FS選取變數個數在非 線性模型較好,較符合我們生成模型的變數個數。. i n U. II: 變 數個 數 在 200個 個, n = p, 模 擬 10次 次. Ch. engchi. v. • 1. 在n = p、在非線性或線性模型下,FS的配適比PCA好, FS選取變數個數在線性模型較好,較符合我們生成模型的變 數個數。 • 2. 在n = p、任何模型下,PCA在C時的誤差比K小。 • 3. 在n = p、符合PCA加成模型下,PCA在T時的誤差比FS還 來得小。 III: 變 數 個 數 在250個 個,n < p, 模擬 7次 次 • 1. 在n < p、任何模型下,PCA在C時的誤差比K小。 26.

(31) • 2. 在n < p、符合PCA加成模型下,PCA在T時的誤差比FS還 來得小。 • 3. 在n < p、在非線性或線性模型下,FS的配適比PCA好, FS選取變數個數在符合PCA加成模型較好,較符合我們生成 模型的變數個數。 IV: 模 擬 時間 • 1. FS模擬時間比PCA來得慢很多,當選取變數個數越多時, 模擬時間就越久。然而PCA不管在多少個變數之下,模擬時 間都是最快的。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 27. i n U. v.

(32) 第五章. 結論與建議. 政 治 大 在第四章中我們將模擬資料做比較得出結論,由上述18個 立 表 格 可 知 , 使 用PCA選 變 數 時 , 當 選 取 主 成 份 的 個 數 為 兩 個. 5.1. 結論. ‧. ‧ 國. 學. (T )時 , 積 分 絕 對 誤 差I為 最 小 。 在 大 多 數 情 況 之 下 ,FS表 現 比PCA要好。但在符合PCA加成模型之下,變數個數越多時(200 、250個),PCA在選取兩個主成份個數 (T )時,積分絕對誤差會 比FS還 來 的 小 。 在 生 成 模 型 類 型 為 非 線 性 模 型 時 , 無 論 是 配 合FS或PCA來選取變數,積分絕對誤差都比其他兩種生成模型 小,原因在於生成非線性模型所用的迴歸函數數值較小。 在選取變數方面,不管在FS或PCA為(Kaiser)準則 (K)、累 積解釋能力 (C)狀況下,都會有多選變數的情況發生,但我們實 際生成變數個數只有兩個。若考量到時間因素之下,FS模擬時 間比PCA來得慢很多,當選取變數個數越多時,模擬時間就越 久。PCA不管選取多少個主成份個數,模擬時間都是最快的。. n. er. io. sit. y. Nat. al. 5.2. Ch. engchi. i n U. v. 建議. 在本文中,我們生成三種模型分別為線性模型(4.2), 非線性模 型(4.3), 符合PCA加成模型(4.4), 以積分絕對誤差I 為判斷標準, 下去看哪種變數選取方法(主成份分析法、向前選取方法)較好。 但是設定這三種生成模型都以向前選取法 (FS)表現突出,因此提 出幾點建議作為未來研究方向: • 1. 在生成模型為非線性模型(4.3), 我們使用sin 函數、cos 函 28.

(33) 數做生成,為一個平滑函數,所用的迴歸函數數值較小, 因此可以生成其他的非線性函數做比較,則可能得到不同結 果。 • 2. 在資料方面,我們生資料個別變數為獨立的隨機均勻分 配,可以考慮下次生資料時,變數間為相依的隨機均勻分 配,生成前兩個主成份的累積解釋能力明顯高於其他主成 份,有助於主成份分析法(PCA)表現較向前選取法(FS)好。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 29. i n U. v.

(34) 附錄 實 驗 四 , 變數 個 數 在 p = 200, n = p, 模 擬 7次 次. 在變數個數為200個,PCA和FS模擬7次的平均積分絕對誤差 比較:. 政 治 大. • 1. 我們生成模型以式子(4.2)線性模型做生成,模擬7次所得 到的平均積分絕對誤差結果:. 學. ‧ 國. 立. 表 5.1: 實驗四,Linear, PCA與FS的平均積分絕對誤差比較. n. al. er. io. sit. y. ‧. Nat. P CA FS K, 23.3700(38.6760) C, 21.0300(33.1521) 0.17080(0.02122) A, 5 × 1013 (1 × 1014 ) T, 2.33300(0.15021). i n U. v. 由表5.1 可知,FS的誤差比PCA來得小很多,為0.1708. PCA在 累積解釋能力 (C)的誤差比Kaiser準則 (K)小分別為21.0及23.4.. Ch. engchi. • 2. 我們生成模型以式子(4.3)非線性模型做生成,模擬7次所 得到的平均積分絕對誤差結果:. 30.

(35) 表 5.2: 實驗四,Nonlinear, PCA與FS的平均積分絕對誤差比較. P CA FS K, 11.1100(25.3213) C, 1.79600(1.91596) 0.09210(0.00679) 13 13 A, 1 × 10 (4 × 10 ) T, 0.23970(0.00906). 由表5.2可知,FS的誤差比PCA來得小很多,為0.0921. PCA在 累積解釋能力 (C)的誤差比Kaiser準則 (K)小,分別為1.8及11.1.. 立. 政 治 大. ‧. ‧ 國. 學. • 3. 生成模型以式子(4.4)符合PCA加成模型做生成,模擬7次 所得到的平均積分絕對誤差結果:. Nat. sit. n. al. er. io. P CA FS K, 27.420000(60.9991) C, 14.600000(27.3036) 0.87860(0.06248) A, 7 × 1013 (2 × 1014 ) T, 0.6505000(0.03511). y. 表 5.3: 實驗四,符合PCA加成模型, PCA與FS的平均積分絕對誤差比較. Ch. engchi. i n U. v. 由 表5.3可 知 ,FS的 誤 差 通 常 比PCA來 得 小 很 多 , 為0.8786. 但PCA在選取兩個主成份個數 (T )時誤差比FS來得小,為0.6505.. • 4. PCA,FS模擬7次的平均選取變數個數及模擬時間的結果。 模擬環境為ASUS的X455LF 14吋筆電,作業系統WIN10 、處 理器為i5-5200U,記憶體為4GB、DDR3L。其中PCA 不管生 成甚麼(模型)都不影響他的選取主成份個數,都由均勻分配 資料下去選取: 31.

(36) 表 5.4: 實驗四,PCA在K, C, A, T 下的平均選取主成份個數及模擬時間比較 主成份個數,(標準差),[模擬時間] 78.7,(0.76),[<1min] 76.7,(0.49),[<1min] 200,(0),[<1min] 2,(0),[<1min]. 線性,非線性,符合PCA加成模型 K C A T. 由表5.4可知,PCA在Kaiser準則 (K)時,選取78.7個主成份個 數,在累積解釋能力 (C)時,選取76.7個主成份個數,模擬時間皆 小於1分。. 立. 政 治 大. ‧ 國. 變數個數,(標準差),[模擬時間] 46.9,(6.96),[28min] 48.9,(15.86),[31min] 43.3,(16.97),[26min]. ‧. FS 線性模型 非線性模型 符合PCA加成模型. 學. 表 5.5: 實驗四,FS在三種生成模型下的平均選取變數個數及模擬時間比較. sit. y. Nat. n. al. er. io. 由表5.5可知,FS在符合PCA加成模型下,選取較少變數個數 為43.3個,較符合我們生成模型的變數個數,模擬時間26分。在非 線性模型時,選取較多變數個數,模擬時間為31分。. Ch. engchi. 32. i n U. v.

(37) 參考文獻 [1] 陳順宇. 多變量分析, 四版, 華泰書局. 收稿日期: 民國 99 年, 10, 2005.. 立. 政 治 大. ‧ 國. 學. [2] Zarah Katharina Saxil Andersen. Boligpriseffekten af den kbenhavnske metro. 2009.. ‧. [3] Erniel Barrios and Jennifer Umali. Nonparametric principal components regression. In Proceedings of the 58 th World Congress of the International Statistical Institute.. n. al. er. io. sit. y. Nat. [4] Andreas Buja, Trevor Hastie, and Robert Tibshirani. Linear smoothers and additive models. The Annals of Statistics, pages 453–510, 1989.. i n U. v. [5] Norman Cliff. The eigenvalues-greater-than-one rule and the reliability of components. Psychological bulletin, 103(2):276, 1988.. Ch. engchi. [6] Carl De Boor. On calculating with b-splines. Journal of Approximation theory, 6(1):50–62, 1972. [7] MA Efroymson. Multiple regression analysis. Mathematical methods for digital computers, 1:191–203, 1960. [8] Jianqing Fan and Jiancheng Jiang. Generalized likelihood ratio tests for additive models. 2005.. 33.

(38) [9] Jerome H Friedman and Werner Stuetzle. Projection pursuit regression. Journal of the American statistical Association, 76(376):817–823, 1981. [10] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933. [11] Karl Pearson. Liii. on lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11):559–572, 1901.. 立. 政 治 大. ‧. ‧ 國. 學. [12] Isaac Jacob Schoenberg. Contributions to the problem of approximation of equidistant data by analytic functions: Part b—on the problem of osculatory interpolation. a second class of analytic approximation formulae. Quarterly of Applied Mathematics, 4(2):112–141, 1946.. n. er. io. sit. y. Nat. al. Ch. engchi. 34. i n U. v.

(39)

參考文獻

相關文件

如果函數是由基本函數所組成,至少需要注意:分式函 數分母會等於 0

對於給定的一個 x 值,經過某一對應方式後得到「唯一」的 y 值,這種對應方式我們稱 為函數,其中 x 是自變數,y 是應變數。. 而在表

學生已在 2000 年版小學數學課程學習單位 4N4「倍數和因數」中認識因

估計兩母 體平均數 差時樣本 數的選擇 估計兩母 體比例差

應用統計學 林惠玲 陳正倉著 雙葉書廊發行 2006... 了解大樣本與小樣本母體常態、變異數已知與未知 下,單一母體平均數區間估計的方法。知悉

請舉出一個可以準確計算出根號值的數字。這類數字有什麼樣

整數數量乘以分數, 理解為將整數(例如: 9個) 數量按分母(例如: 3)均分, 並按分子(例如: 1) 取多少份,

階段一 .小數為分數的另一記數方法 階段二 .認識小數部分各數字的數值 階段三 .比較小數的大小.