套裝軟體R與SAS之優劣分析比較

(1)

報告題名：

套裝軟體 R 與 SAS 之優劣分析比較

作者：林貞妤、葉素婷、李玲佑、張惠雯、賀宇涵系級：統計四乙 學號： D9639335、D9639127、D9660109、D9660010、D9645452 開課老師：陳婉淑教授課程名稱：統計專題開課系所：統計系開課學年：九十九學年度第一學期

(2)

中文摘要

有關統計最常使用的兩種軟體，一種是需要專業語法的 SAS，另一種則是隨處可得的免費軟體 R。為了找出對統計最有效率及分析良好的軟體，我們分別用 SAS 跟 R 對相同資料做出統計分析，並比較輸出結果，從中了解 SAS 跟 R 的優缺點，建議使用軟體，進而做為日後的參考。利用某特定資料分別以 SAS 與 R 進行基本統計量、相關係數分析、散佈圖、多重共線性、離群值、選取重要變數、部分 F 檢定、偵測影響點、殘差診斷分析等等，配適複迴歸線所需要的檢定與統計分析，從中比較以 SAS 及 R 進行分析所需的程式碼及得到的報表有何不同，並且評斷 SAS 及 R 的差異性及優劣性。從這份報告中，在 SAS 與 R 兩種統計套裝軟體都可以得到的情況下，可依不同的研究性質及方法，交互使用兩個套裝軟體 R 及 SAS，如針對基本統計量、相關係數分析、選取重要變數、殘差診斷分析可建議選用 SAS 程式；而散佈圖、多重共線性、離群值、部分 F 檢定、偵測影響點則建議選用 R 程式，以達到最有效率、省時且方便的統計分析。

關鍵字：

R、SAS、複迴歸、統計軟體

(3)

目錄

第一章緒論 ... 5 第一節研究背景 ... 5 第二節研究動機 ... 5 第三節研究目的 ... 6 第四節研究方法 ... 6 第五節研究流程 ... 7 第二章資料分析 ... 7 第一節資料的讀取 ... 7 一、資料簡介 ... 7 二、SAS 與 R 的資料讀取之程式碼 ... 7 第二節一般基本統計量 ... 8 一、何謂基本統計量 ... 8 二、SAS 與 R 的基本統計量之程式碼 ... 9 三、SAS 與 R 報表的分析及比較 ... 9 第三節相關係數 ... 11 一、何謂相關係數 ... 11 二、SAS 與 R 的相關係數之程式碼 ... 11 三、SAS 與 R 報表的分析及比較 ... 11 第四節散佈圖 ... 13 一、何謂散佈圖 ... 13 二、SAS 與 R 散佈圖繪製的程式碼 ... 13 三、SAS 與 R 報表的分析及比較 ... 14 第五節檢測變數間有無多重共線性 ... 16 一、何謂多重共線性 ... 16 二、SAS 與 R 的多重共線性檢測之程式碼 ... 16 三、SAS 與 R 報表的分析及比較 ... 16 第六節離群值 ... 18 一、何謂離群值 ... 18 二、SAS 與 R 的離群值之程式碼 ... 18 三、SAS 與 R 報表的分析及比較 ... 18 第三章多元迴歸分析法 ... 20 第一節選擇重要變數 ... 20 一、向前選取法 ... 20 1. SAS 與 R 的向前選取法之程式碼 ... 20 2. SAS 與 R 報表的分析及比較 ... 22

(4)

二、向後消去法 ... 22 1. SAS 與 R 的向後消去法之程式碼 ... 22 2. SAS 與 R 報表的分析及比較 ... 24 三、逐步迴歸法 ... 25 1. SAS 與 R 的逐步迴歸法之程式碼 ... 25 2. SAS 與 R 報表的分析及比較 ... 26 四、全部子集迴歸法 ... 27 1. SAS 與 R 的逐步迴歸法之程式碼 ... 27 2. SAS 與 R 報表的分析及比較 ... 29 第二節部分 F 檢定 ... 29 一、何謂部分 F 檢定 ... 29 二、SAS 與 R 的部分 F 檢定之程式碼 ... 30 三、SAS 與 R 報表的分析及比較 ... 31 第三節偵測影響點 ... 32 一、影響點的偵測 ... 32 二、SAS 與 R 的偵測影響點之程式碼 ... 32 三、SAS 與 R 報表的分析及比較 ... 32 第四章殘差診斷分析 ... 33 第一節檢測殘差平均是否為零 ... 34 一、檢測殘差平均是否為零 ... 34 二、SAS 與 R 的殘差平均是否為零之程式碼 ... 35 三、SAS 與 R 報表的分析及比較 ... 36 第二節檢測殘差變異數是否為常數 ... 37 一、檢測殘差變異數是否為常數 ... 37 二、SAS 與 R 的殘差變異數是否為常數之程式碼 ... 37 三、SAS 與 R 報表的分析及比較 ... 38 第三節檢測殘差殘差是否為獨立 ... 39 一、檢測殘差是否相互獨立 ... 39 二、SAS 與 R 的殘差相互獨立檢定之程式碼 ... 39 三、SAS 與 R 報表的分析及比較 ... 40 第四節檢測誤差是否為常態 ... 41 一、檢測殘差是否為常態 ... 41 二、SAS 與 R 的殘差是否為常態檢定之程式碼 ... 41 三、SAS 與 R 報表的分析及比較 ... 44 第五節最終模型 ... 44 第五章分析結果總結表 ... 44 第六章結論與建議 ... 44 參考文獻 ... 45

(5)

表目錄

表 2‐2.1 基本統計量 SAS output 10 表 2‐2.2 基本統計量 R output 10 表 2‐3.1 相關係數 SAS output 12 表 2‐3.2 相關係數 R output 12 表 2‐5.1 偵測多重共線性 SAS output 17 表 2‐5.2 偵測多重共線性 R output 17 表 2‐6.1 離群值 SAS output 19 表 2‐6.2 離群值 R output 19 表 3‐1.11 向前選取法 SAS output 21 表 3‐1.12 向前選取法 R output 21 表 3‐1.21 向後消去法 SAS output 23 表 3‐1.22 向後消去法 R output 24 表 3‐1.31 逐步迴歸法 SAS output 26 表 3‐1.32 逐步迴歸法 R output 26 表 3‐1.41 全部子集迴歸法 SAS output 27 表 3‐1.42 全部子集迴歸法 R output 28 表 3‐2.1 部分 F 檢定 SAS output 30 表 3‐2.2 部分 F 檢定 R output 31 表 3‐3.1 偵測影響點 SAS output 33 表 3‐3.2 偵測影響點 R output 33 表 4‐1.1 檢測殘差平均是否為零 SAS output 36 表 4‐1.2 檢測殘差平均是否為零 R output 36 表 4‐3.1 檢測殘差是否相互獨立 SAS output 40 表 4‐3.2 檢測殘差是否相互獨立 R output 40 表 4‐4.1 檢測殘差是否為常態SAS output 42 表 4‐4.2 檢測殘差是否為常態R output 43 表 5‐1 SAS 與 R 的 output 優劣比較表 45

圖目錄

圖 2‐4.1 x1 與 y 的散佈圖 15 圖 2‐4.2 x2 與 y 的散佈圖 15 圖 2‐4.3 x3 與 y 的散佈圖 15 圖 2‐4.4 x4 與 y 的散佈圖 15 圖 2‐4.5 x5 與 y 的散佈圖 15 圖 2‐4.6 與 y 的散佈圖 15 圖 3‐1.41 Cp‐p 圖的 SAS output 28 圖 3‐1.42 Cp‐p 圖的 R output 29 圖 4‐2.1 檢測殘差變異數是否為常數 SAS output 38 圖 4‐2.2 檢測殘差變異數是否為常數 R output 38 圖 4‐4.1 檢測殘差是否為常態Q‐Q plot 圖 43

(6)

第一章緒論

第一節研究背景

統計學是一種工具，用來幫助人們蒐集、整理、分析資料，用以解釋及預測經濟、社會及自然現象的一門重要學問，已被廣泛的運用在保險業、企業、工業、醫學業、教育業，甚至是生態環境上，在各個科學中都扮演著不可或缺的重要角色。統計學為當今國外的熱門研究領域，國內也正緩慢起步當中。在現今科技資訊爆發的時代，透過統計學，不但可以提高研究與決策的品質，做出最合理、最科學的推論，更可以進一步提高生產力。統計學對我們日常生活幫助如此的廣泛，其發展不可限量。統計學是利用資料的特質來觀察並且了解一些現象，我們常藉由執行統計套裝軟體，以獲得統計分析結果。 經常使用的統計套裝軟體應該是 SAS 系統，最早由北卡羅來納州立大學的兩 位生物統計學的研究生編製。起初 SAS 只是一數學統計軟體，後於 1976 年由 Jim Goodnight 博士及 John Sall 博士等人成立 SAS 公司，並正式推出 SAS 軟體。SAS 系統是一個模組軟體系統，它由多個功能的模組組合而成，最常使用的模組是 BASE 和 STAT。經過多年的發展，SAS 已經遍佈全世界，使用的單位遍及金融、醫藥衛生、生產、運輸、通訊、科學研究、政府和教育等領域；在資料處理和統計分析領域，SAS 系統被譽統計軟體界的巨無霸。 R 為免費的套裝軟體，且取得便利，本來是由來自紐西蘭奧克蘭大學的 Ross Ihaka 和 Robert Gentleman 開發，現在則由「R 開發核心團隊」負責開發。R 的語法是來自 Scheme，是基於 S 語言的一個 GNU 項目，所以也可以當作 S 語言的一 種實現，通常用 S 語言編寫的代碼都可以不作修改在 R 環境下運行。R 語言主要 運用於統計分析或者開發統計相關的軟體，不但如此也有人將 R 用作矩陣的計算。操作環境與繪圖功能亦是 R 強項，其製圖具有印刷的質素，也可在其中加入數學符號。R 內建多種統計學及數字分析功能，可以透過用戶撰寫的功能安裝套件（Packages）增強。由於 S 語言的血緣，R 比其他統計學或數學專用的編程語言，有更強的物件導向（物件導向程序設計）功能。人們利用 R 及 SAS 進行統計分析，得到結果並做出適當的決策和解決之道，因此這兩個常用的統計套裝軟體 R 與 SAS 成為重要的學習課程。

第二節研究動機

統計學經常被用在保險業、企業界、工業、醫學，甚至是教育上，廣泛的存在各個領域中，在日常生活中成為不可或缺的重要角色。因此統計套裝軟體的應用也成為重要的學習課程，我們常透過統計套裝軟體對感興趣的資料進行統計的

(7)

相關分析，但市面上的統計套裝軟體有很多種，卻不知該選擇何種統計套裝軟體來進行統計分析。常用的統計套裝軟體有 R、SAS，不同的軟體，跑出的報表數值或者是圖表也不盡相同，因此在進行統計資料分析時，常常思考著該使用哪種軟體進行分析，可以較簡單的得到較完整的結果，且有較美觀的圖表，已供進行分析並做出結論。

第三節研究目的

統計套章軟體中常使用的有 R 與 SAS。SAS 沒有單機版，只有機構版，而且每年都必須計費且收費不便宜，換句話說，SAS 是提供給機構或團體使用，若不是在機構工作的研究人員或沒有與 SAS 簽約的機構研究人員都使用 SAS 上會很困難。R 不需花費就能得到的統計套裝軟體，可以自由取得。我們選擇對需要購買版權的 SAS 及隨處可得的免費軟體 R 進行討論研究。利用由心理與教育統計學中蒐集的一筆數據，分別使用 R 與 SAS 進行複迴歸分析，並且對於兩者報表進行優缺點的探討，並找出何種分析方法較適合使用何種統計套裝軟體，並且分析何種套裝軟體可以得到較美觀的圖，從中討論出 SAS 與 R 的優缺點，進而做為日後統計分析參考用。

第四節研究方法

為了進行透過 SAS 和 R 做統計分析的優劣之比較，我們利用由心理與教育統計學中蒐集的一筆數據，分別使用 R 與 SAS 進行複迴歸線的配適，透過配適迴歸線的過程分析並且比較 R 與 SAS 的優缺點。資料是由心理與教育統計學(林清山民 78)中，所找出的一筆資料數據，統計了 16 位學生的英文閱讀測驗成績，反應變數 Y 是學生的閱讀測驗成績，五個解釋變數分別為測驗中的單字成績(x1)、測驗中的片語成績(x2)、測驗中的文法成績 (x3)、是學生對本次閱讀測驗的期望成績(x4)以及學生的智力測驗成績(x5)。藉由此筆數據，我們透過 R 與 SAS 兩種統計套裝軟體進行複迴歸的統計分析。首先利用 R 與 SAS 進行資料分析，分別找出此筆資料的基本統計量、相關係數、散佈圖、離群值，並且偵測解釋變數間是否存在高度相關性。接著進行迴歸線的配適，藉由向前選取法(Forward Selection)、向後選取法 (Backward Selection)、逐步迴歸法(Stepwise regression methods)及全部子集迴歸法 (All‐subsets Regression)找尋資料的重要變數，選取重要變數後進行部分 F 檢定，檢定重要變數的選擇是否適當，接著找尋影響點。最後對配適的迴歸線進行殘差檢定，分別有：殘差平均是否為零、殘差變異數是否為常數、檢定殘差是否相互獨立，以及檢定誤差是否為常態。檢定與假設相符進而確定最終模型。利用統計套裝軟體 R 與 SAS，進行以上的資料分析及複

(8)

迴歸線的配適，透過這些分析，比較兩統計套裝軟體需要的程式碼及得到的報表之差異與優劣。

第五節研究流程

為了比較 R 和 SAS 統計套裝軟體，我們透過網路來選取資料，找到一筆有關於心理與教育統計學的數據，分別利用統計套裝軟體 R 和 SAS，進行統計分析，首先利用研究方法中的資料分析，來了解資料狀況，接著利用多元迴歸分析法配飾迴歸模型，最後對配適的模型進行殘差診斷分析，透過統計套裝軟體 R 和 SAS 比較兩統計套裝軟體需要的程式碼及得到的報表之差異與優劣，最後進行討論並下結論。

第二章資料分析

第一節資料的讀取

一、資料簡介

資料是由心理與教育統計學(林清山民 78)中，所找出的一筆資料數據，統計了 16 位學生的英文閱讀測驗成績，主要探討學生對單字、片語、文法的熟悉度以及智力的高低和預期自己的能力是否會和測驗出的成績高低有相關。反應變數 Y 是學生的閱讀測驗成績，五個解釋變數分別為測驗中的單字成績(x1)、測驗中的片語成績(x2)、測驗中的文法成績(x3)、是學生對本次閱讀測驗的期望成績(x4) 以及學生的智力測驗成績(x5)。相關網址如下： http://webclass.ncu.edu.tw/~tang0/Chap12/Sas12.htm#範例 12.5

(9)

二、SAS 與 R 的資料讀取之程式碼

1. SAS 程式碼： 2. R 程式碼：

第二節一般基本統計量

一、何謂基本統計量

統計量是用來描述樣本特性的統計測量數，常被用來推估母體參數。一般統計量包括最基本的平均數、中位數、全距、變異數、標準差、偏態係數、峰態係數以及變異係數……等等，藉由這些基本統計量可以獲得資料的基本訊息。 1. 集中趨勢量數(平均數、中位數) data grade; input y x1 x2 x3 x4 x5 ; label y='閱讀測驗成績' x1='單字成績' x2='片語成績' x3='文法成績' x4='對閱讀的期望成績' x5='智力測驗成績' ; cards; 70 16 19 29 88 108 63 10 30 23 71 113 . . . 62 12 50 33 80 105 ; data=read.table(file='C:/score.txt',header=T) ## "header=T" 是以讀到的第一列做為變數名稱 ## ## 以下是對數據的命名 ## y=data[,1] ## 閱讀測驗成績 ## x1=data[,2] ## 單字成績 ## x2=data[,3] ## 片語成績 ## x3=data[,4] ## 文法成績 ## x4=data[,5] ## 對閱讀測驗的期望成績 ## x5=data[,6] ## 智力測驗成績 ##

(10)

(1) 平均數：一組數值加總後再除以總個數所得的值。 (2)中位數：將資料值依大小順序排列，取其正中央之數值或正中央之兩數值之平均數。 2. 離散趨勢量數(全距、變異數、標準差、變異係數、偏態與峰態) (1)全距(Range)：樣本或母體中最大值與最小值的差，全距越大表資料的離散程度越大。 (2)變異數：每個觀察值減去母體平均數(即離均差)，加以平方後加總，最後除以個數 ( Var(x)＝變異數越大表資料離散度越大。。 (3)標準差：標準差為變異數之平方根。 (4)偏態係數：偏態係數＞0，表右偏分配；偏態係數＝0，表對稱分配；偏態係數＜0，表左偏分配。其中，偏態係數＝。 (5)峰態係數：峰態係數＞3，表高峽峰；峰態係數＝3，表常態峰；峰態係數＜3，表低闊峰。其中，峰態係數＝。 (6)變異係數：標準差除以平均數就是變異係數用以比較兩組資料相對離散程度的工具。變異係數＝

二、SAS 與 R 的基本統計量之程式碼

1. SAS 程式碼： 2. R 程式碼：

proc means data=grade RANGE Q1 Q3 MAX MIN MEAN MEDIAN CV STD KURT SKEW;

run; summary(data) ## min Q1 median Q3 max ## mean(data) ## 平均 ## sd(data) ## 標準差 ## library(moments) ## 峰態、偏態需用到此程式套件 ## kurtosis(data) ## 峰態 ##

(11)

三、SAS 與 R 報表的分析及比較

1. 報表分析：

表 2‐2.1 基本統計量 SAS output

表 2‐2.2 基本統計量 R output 由表 2‐1.1 SAS 的報表皆可得到各個變數的平均數、中位數、全距、變異數、標準差、變異係數、偏態係數與峰態係數。以解釋變數 x5 為例，其平均數為 109.875、中位數為 110、全距為 33、標準差為 9.3085、變異係數為 8.4719、偏態係數為－0.1168 及峰態係數為－0.1899。表 2‐1.2 R 的報表結果，除了峰態係數以外基本上都和 SAS 的結果相同，我們進一步的加以探討兩者的差異後發現，SAS 給訂的峰態係數是超額峰態(峰態係數－3)，而非一般的峰態係數，在此須特別注意。

(12)

2. 報表主觀的比較：

SAS 的 output 簡單清楚，變數間基本統計量的比較相對於 R 來的容易比對。因此在基本統計量上，我們喜愛使用 SAS 來進行分析，但要對於峰態係數要特別的注意，SAS 內定的是屬超額峰態。

第三節相關係數

一、何謂相關係數

設有兩組樣本及，其樣本平均數分別為與，樣本標準差分別為且兩組樣本之樣本共變異數(covariance) ，將其定義為。則相關係數定義為。透過相關係數分析可以得到兩變數間的相關性，並且可得到兩變數相關性的強度，相關係數絕對值越接近 1，表示兩變數的相關性越高。

二、SAS 與 R 的相關係數之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析： proc corr; var y x1 ‐ x5; run;

cor(cbind(y,x1,x2,x3,x4,x5) )

(13)

表 2‐3.1 相關係數 SAS output 表 2‐3.2 相關係數 R output 由表 2‐2.1 SAS 報表可知變數間是否存在相關性，以解釋變數 x4 與 x5 為例：在虛無假設，顯著水準為 0.05 之檢定下，p-value＝0.0046 0.05，拒絕，表示兩變數間具有相關性。且由報表亦可知兩者的相關係數為 0.6689，成些微的正相關。由表 2‐2.2 R 的報表亦可得到與 SAS 報表相同的相關係數值，但 R 並不會自己進一步做相關係數是否為零的假設檢定，可能須找尋另一個程式碼才可得到此檢定結果。 2. 報表主觀的比較：

SAS 在一個指令下，不但可以跑出兩變數的相關係數，還會對兩變數是否存在相關性加以檢定( )。而 R 則只是給定兩變數的相關係數，但單從相

(14)

關係數值來判斷是否存在相關性，並不是那麼的方便與準確，因此必須對此檢定輸入另一個指令，找到的結果加以判斷。希望得到相同的東西，SAS 只需一個指令即可，R 則非如此，因此在相關係數上，我們建議使用 SAS 進行分析。

第四節散佈圖

一、何謂散佈圖

透過散佈圖不但可了解兩變數之間的相關性，亦可知道此筆資料是否存在異常值，它有直觀簡便的優點。但兩變數相關不代表就有因果關係，通過觀察相關圖主要是看點的分佈狀態，概略地估計兩因素之間有無相關關係，從而得到兩個變數的基本關係。當散佈圖的縱軸隨著橫軸的增加而增加，表示兩變數存在正線性相關；當縱軸隨著橫軸的增加而減少，表示兩變數存在負線性相關；而當橫軸的增加不會造成縱軸的增加或減少之趨勢時，表示兩變數並無線性相關。如下圖示：

二、SAS 與 R 散佈圖繪製的程式碼

1. SAS 程式碼： . 2. R 程式碼： proc gplot; plot y*(x1 x2 x3 x4 x5);

symbol1 v=dot c=blue;

run; win.graph() ## 此指令可使跑出的圖不重疊覆蓋出現 ## par(mfrow=c(2,2)) ## 此指令可將畫面分割成 2＊2 的四張圖 ## plot(x1,y,main="scatterplot of (x1,y)") plot(x2,y,main="scatterplot of (x2,y)") plot(x3,y,main="scatterplot of (x3,y)") plot(x4,y,main="scatterplot of (x4,y)") win.graph() plot(x5,y,main="scatterplot of (x5,y)")

(15)

三、SAS 與 R 報表的分析及比較

1. 報表分析： 圖 2‐4.1 x1 與 y 的散佈圖圖 2‐4.2 x2 與 y 的散佈圖圖 2‐4.3 x3 與 y 的散佈圖圖 2‐4.4 x4 與 y 的散佈圖圖 2‐4.5 x5 與 y 的散佈圖

(16)

圖 2‐4.6 與 y 的散佈圖由圖 2‐4.1～2‐4.5 SAS 的 output 可以看出解釋變數 x1、x2、x3 的增減不受反應變數 y 影響，而解釋變數 x4 與 x5 則有隨著反應變數 y 的增加而增加的趨勢，由此推估知，解釋變數 x4 及 x5 與反應變數 y 存在正線性相關。而圖 2‐4.6 R 的 output 亦可得到與 SAS 相同的分析結果。 2. 報表主觀的比較： R 在進行散佈圖的繪製時，可以將多張圖濃縮放置成一大張，在變數間的比較及對應上，相對於 SAS 分開一大張一大張的圖表來的方便美觀並且省空間，因此在散佈圖的繪製上，我們偏愛以 R 軟體進行分析。

(17)

第五節檢測變數間有無多重共線性

一、何謂多重共線性

多重共線性是指在迴歸模式中，某些自變數或所有自變數之間有高度線性相關的現象，此高度相關性會影響配適迴歸線的準確度，因此再配適迴歸前，須先針對解釋變數進行多重共線性的檢測，偵測是否有高度相關的變數存在，若有則需進行轉換加以改善。我們可利用變異數膨脹因素法 Variance Inflation Factor (VIF) 偵測變數間是否存在多重共線性。VIF 主要在量測迴歸係數之變異數，相對於預測變數間的無線性關係之膨脹量，它經常被用來做為多重共線性嚴重程度之指標，當 VIF 超過 10 的情形下，將被視為多重共線性會過度的影響最小平方估計的一項指標訊息。其中 VIF = 為以為反應變數，剩餘解是變數對於的解釋能力。

二、SAS 與 R 的多重共線性檢測之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析： proc reg;

model y=x1 ‐ x5 /vif; /*vif: variance inflaction factor */ run;

mod1=lm(y~x1+x2+x3+x4+x5) library(HH) ## 求 VIF 需要用此套裝程式 ## v=vif(mod1) v ## 列出變數的 v 值 ## v>10 ## 找 v 值大於 10 的變數##

(18)

表 2‐5.1 偵測多重共線性 SAS output 表 2‐5.2 偵測多重共線性 R output 由表 2‐4.1 SAS 的報表可以得知，全模型的參數估計值與模型的解釋能力…… 等等訊息，並且可得到各個變數的 VIF 值。由表 2‐4.1 的 Variance Inflation 得知所有的 VIF 值皆小於 10，表示變數間沒有高度線性相關，不存在多重共線性。由表 2‐4.2 R 的報表可得到比 SAS 報表更精確的 VIF 值(小數點下多一位)，並且加入簡單的一個指令(V>10)，即可判斷出變數間是否具有多重共線性，得到的結果與 SAS 相同，變數間皆沒有高度相關性，不存在多重共線性。 2. 報表主觀的比較：

在偵測多重共線性下，R 和 SAS 的指令都很簡單，但我們認為 R 的 output 相對於 SAS 的簡單明瞭，馬上可以知道各個變數的 VIF 值，而 SAS 則須自行去對應找尋 VIF 值為何，並且加以判斷是否大於 10(具有多重共線性)。因此在此迴歸步驟下我們建議使用 R 軟體進行分析。

(19)

第六節離群值

一、離群值有三大類:

1.殘差（residual） – 各細格實際觀察人數減去期望人數，又稱為Δ（delta）值 – 殘差越大，各細格分佈越不如期望般的出現，兩個變項有某種關聯，殘差越小，表示各細格分佈越接近期望，兩變項無關聯 ‧ 正殘差值表該細格的觀察次數高於兩個變項無關時的期望值 ‧ 負殘差值表該細格的觀察次數低於兩個變項無關時的期望值 2.標準化殘差（standardized residual） – 殘差為未標準化統計量數。將殘差除以標準誤，得到標準化殘差 – 將標準化殘差平方後加總，即得Pearson χ2，也就是我們常用的卡方值 – Δ’分佈呈標準化常態分配 N（0,1），可利用常態化 Z 分配進行統計決策 3.調整後標準化殘差（adjusted standardized residual） – 標準化殘差會隨著邊際期望值的大小變動而產生波動 – 若將標準化殘差以各邊際比率進行調整，得到調整後標準化殘差，可以排除各邊際次數不相等所造成的比較問題

二、SAS 與 R 的離群值之程式碼

1. SAS 程式碼： 2. R 程式碼：

ij ij ij ij n μ μ ˆ ˆ − = Δ′ ) 1 )( 1 ( ˆ ˆ . . j i ij ij ij P P n adj − − − = Δ′ μ μ ij ij ij =n −μˆ Δ s=summary(resid(mod1)) sd(resid(mod1)) var(resid(mod1)) mean(resid(mod1)) std=(resid(mod1)‐mean(resid(mod1)))/var(resid(mod1)) boxplot(std) std<(‐3) proc reg; model time=case distance/cli clm p r; output out=residual p=pred r=resid; run;

(20)

三、SAS 與 R 報表的分析及比較

1. 報表分析：

表 2‐6.1 離群值 SAS output 表 2‐6.2 離群值 R output 由表 2‐6.1 及表 2‐6.2 可以知道，透過 SAS 與 R 進行離群值的分析，兩種軟體的三種的殘差比較之結果相同，皆沒有離群值存在。 2. 報表主觀的比較：

在離群值的比較下，雖然 R 的程式碼比 SAS 較複雜了點，但是因為 R 可以直接輸入判定法則，直接可以了解到哪些點是離群值，而不需像 SAS 利用三項互相比較的方式，因此在離群值的分析比較方法下，我們較推薦 R 軟體進行分析。

(21)

第三章多元迴歸分析法

第一節選擇重要變數

從眾多的自變數中，利用向前選取法、向後選取法、逐步選取法、全部子集迴歸法有系統的選擇提供較多訊息的重要變數配適迴歸模型。

一、向前選取法(Forward Selection)

一次考慮一個自變數，判斷其貢獻是否已達設定的標準，若是則將其「納入」複(多元)迴歸方程式中。利用向前選取法選取重要變數的步驟如下：首先進入方程式的自變項是與依變項關係最密切者，即與依變項有最大正相關或最大負相關者。接著選取與依變項間的淨相關為最大之自變項，進入迴歸模式。當進入變數之標準化迴歸係數 F 值的機率小於或等於我們可以接受的顯著水準，此變項才可以進入迴歸模式中，且此分析法在選取過程中並不剔除任何已在迴歸方程式中的自變數。 1. SAS 與 R 的向前選取法之程式碼 (1) SAS 程式碼： (2) R 程式碼： 2. SAS 與 R 報表的分析及比較 (1)報表分析： proc reg;

model y=x1 x2 x3 x4 x5 /selection=forward slentry=0.15;

run;

step(lm(y~1),

scope = list(upper =~x1+x2+x3+x4+x5+1, lower = ~1), direction=c('forward'))

(22)

表 3‐1.11 向前選取法 SAS output 表 3‐1.12 向前選取法 R output 由表 3‐1.1 SAS 報表可以得知，在顯著水準為 0.15 下，首先挑選變數 x4 進模型，接著將變數 x5 挑入模型中，直到在顯著水準 0.15 下沒有變數可以再被選進模型中，最後得到兩重要變數為。在這兩個解釋變數構成的迴歸模型下，具有 0.762 的解釋能力。

(23)

由表 3‐1.2 可以得知，利用 R 進行向前選取法選出的重要變數和 SAS 相同，都先後選進了解釋變數 x4 與 x5。且由表 3‐1.2 可以得知，R 軟體在向前選取法提供了 AIC 做比較。 (2)報表主觀的比較： 在向前選取法選取重要變數下，SAS 提供了較多的資訊，如：選擇變數 x4 下配適的模型具有的解釋能力為 0.681、加入新變數 x5 額外的解釋能力，以及其 Cp 值。而 R 只提供 AIC 加以判斷，沒有模型的解釋能力……等等其他訊息。因 SAS 在此統計分析下，供應的資訊相對於 R 來的充分許多，因此我們偏愛以 SAS 進行向前選取法選取重要變數。

二、向後消去法(Backward Selection)

所謂的向後消去法，就是將所有的變數納入迴歸模式中，再逐一對變數無法達到設定標準的變數移除，直到所有變數達到標準為止，若是已從迴歸方程式中剔除者，則不再考慮範圍內。 1. SAS 與 R 的向後消去法之程式碼 (1) SAS 程式碼： (2) R 程式碼： 2. SAS 與 R 報表的分析及比較 (1)報表分析： proc reg;

model y=x1 x2 x3 x4 x5 /selection=backward slstay=0.15; run;

(24)

(25)

表 3‐1.22 向後消去法 R output 由表 3‐2.1 SAS 報表可以得知，在顯著水準為 0.15 下，首先將所有變數納入模型，接著將變數 x3 剔除模型中，再著又將變數 x2 剔除模型中，直到在顯著水準 0.15 下沒有變數可以再被剔除模型中，最後得到兩重要變數為 x4 與 x5。在這兩個解釋變數構成的迴歸模型下，具有 0.762 的解釋能力。利用 R 進行向前選取法選出的重要變數，得到表 3‐2.2 的結果和 SAS 相同，都先後將 x3、x2 及 x1 踢除出模型中。且由表 3‐2.2 可以得知，R 軟體在向後消去法只提供了 AIC 做比較。 (2)報表主觀的比較： 在向後消去法選取重要變數下，SAS 提供了較多的資訊，如：剔除變數 x3 下配適的模型具有的解釋能力為 0.81、各變數額外的解釋能力為何，以及其 Cp 值。而 R 只提供 AIC 加以判斷，沒有模型的解釋能力……等等其他訊息。因 SAS 在此統計分析下，供應的資訊相對於 R 來的充分許多，因此我們偏愛以 SAS 進行向前選取法選取重要變數。

(26)

三、逐步迴歸法(Stepwise regression methods)

逐步迴歸選取法是結合「向前選取法」與「向後選取法」而成。預測變數選取過程中輪流以向前、向後選取法選取變數，直到沒有預測變數可以再選進來，亦無預測變數會被去除，這種方式就稱為「逐步迴歸選取法」。 1. SAS 與 R 的逐步迴歸法之程式碼 (1) SAS 程式碼： (2) R 程式碼： 2. SAS 與 R 報表的分析及比較 (1)報表分析： proc reg;

model y=x1 x2 x3 x4 x5 /selection=stepwise; run;

step(lm(y~1),

(27)

表 3‐1.31 逐步迴歸法 SAS output 表 3‐1.32 逐步迴歸法 R output 由表 3‐3.1 SAS 報表可以得知，在顯著水準為 0.15 下，逐步選取法利用輪流以向前、向後選取法選取變數，挑選變數 x4 進模型，接著將變數 x5 挑入模型中，直到在顯著水準 0.15 下沒有變數可以再進入模型也沒有變數須被剔除，最後得到兩重要變數為 x4 與 x5。在這兩個解釋變數構成的迴歸模型下，具有 0.762 的解釋能力。利用 R 進行向前選取法選出的重要變數，得到表 3‐3.2 的結果和 SAS 相同。且由表 3‐3.2 可以得知，R 軟體在逐步選取法下只提供了 AIC 做比較。 (2)報表主觀的比較： 在逐步選取法選取重要變數下，SAS 提供了較多的資訊，如：挑選出變數 x4 下配適的模型具有的解釋能力為 0.6810、加入新變數 x5 額外的解釋能力，以及其 Cp 值。而 R 只提供 AIC 加以判斷，沒有模型的解釋能力……等等其他訊息。因

(28)

SAS 在此統計分析下，供應的資訊相對於 R 來的充分許多，因此我們偏愛以 SAS 進行逐步選取法選取重要變數。

四、全部子集迴歸法(All‐subsets Regression)

全部子集的挑選方法有、Mallows’ 五種準則。其中當越大，解釋能力越佳；越小且－也越小其模型越佳；與 準則皆是越小越好。 1. SAS 與 R 的全部子集迴歸法之程式碼 (1) SAS 程式碼： SAS 的 (Cp , p)輔助判斷圖程式碼： (2) R 程式碼： R 的 (Cp , p)輔助判斷圖程式碼： 2. SAS 與 R 報表的分析及比較 (1)報表分析： 表 3‐1.41 全部子集迴歸法 SAS output proc reg;

model y=x1 x2 x3 x4 x5/selection=adjrsq cp aic sbc best=5; run;

proc reg;

model y= x1 x2 x3 x4 x5/selection=cp best=6;

plot cp.*np.

/chocking=green cmallows=blue

vaxis=0 to 8 by 0.5 haxis=0 to 8 by 0.5 crame=ligr;

symbol1 v=dot c=red;

run;

library(leaps) x=cbind(x1,x2,x3,x4,x5) leaps(x,y) library(wle) mod21=lm(y~x4+x5) result<-wle.cp(mod21) plot(result,num.max=7)

(29)

圖 3‐1.41 Cp‐p 圖的 SAS output

(30)

圖 3‐1.42 Cp‐p 圖的 R output 由表 3‐1.41 SAS 報表可知，在全部子集迴歸法選取重要變數下，在只有 x4 與 x5 兩個解釋變數下得到的模型，具有最小的 AIC 與 SBC 值，又由上圖(Cp 與 p 構成的圖)可得知在此模型下具有最小的 Cp 值，且 Cp－p 亦小，而在這兩個解釋變數構成的迴歸模型下，也具有 0.762 的解釋能力。 (2)報表主觀的比較： 在全部子集迴歸方法中，我們可以在 SAS 與 R 的報表中發現，SAS 的提供的訊息相對地比 R 的完整並且清楚許多；就專業內容而言，SAS 的報表中分別顯示了 Adjusted R‐square、R‐square、和 AIC 值，但在 R 的報表中只顯示出。除此之外，我們認為 SAS 所跑出的圖，比 R 所呈現的圖還要來得美觀，所以對於此方法，我們喜愛並且也建議利用 SAS 進行全部子集迴歸的分析。

第二節部分 F 檢定

一、何謂部分 F 檢定

主要在檢定部分的參數是否為 0。在原有的解釋變數模型下，額外加入其他變數對於反應變數 y 是否有足夠的解釋貢獻，以至於需要將此變數加入模型中，提高模型解釋反應變數的能力。假設檢定：若 p‐value 小於顯著水準，表示拒絕。若 p‐value 大於顯著水準，表示不拒絕決策規則：。

(31)

二、SAS 與 R 的部分 F 檢定之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析：

表 3‐2.1 部分 F 檢定 SAS output proc reg data=grade;

model y=x1 x2 x3 x4 x5; test x1=0, x2=0, x3=0; run;

summary(mod1) anova(mod1) F.stat=((151.78 + 26.93 + 130.91)/3)/33.75 F.stat pf(F.stat, 3, 10, lower=F) ## Getting the P‐value (with the appropriate d.f. = (3,10))##

(32)

表 3‐2.2 部分 F 檢定 R output 由表 3‐2.1 SAS 的報表可以知道在 x1、x2、x3、x4、x5 五個解釋變數下，配適的迴歸模型具有 0.7204 的解釋能力。配適模型在給定 x4 和 x5 兩解釋變數下，檢定 x1、x2 與 x3 的參數是否皆為 0，由於 Pr > F = 0.4647 大於顯著水準，拒絕＝，亦即加入 x1、x2 與 x3 三解釋變數，對於解釋反應變數之變異之能力不高，模型配適時可以不考慮這三個變數。對 R 軟體下多個指令後，得到報表 3‐2.1 亦可得到與 SAS 相同的結果：全模型下，配適的迴歸模型具有 72.04%的解釋能力。在給定 x4 和 x5 兩解釋變數下， 檢定 x1、x2 與 x3 是否為 0，由於 Pr> F*=0.0784 大於顯著水準 ，根據檢定規則，拒絕虛無假設＝，亦即 X1、X2 與 X3 可以不被入模型加以配適。 2. 報表主觀的比較：

由於在 SAS 只需簡單的一個指令即可清楚完整得到部分 F 檢定的結果，而 R 卻須自行再加入計算 F 值及其 p‐value 之值，相對於 SAS 而言麻煩許多，因此我們偏愛並且建議使用 SAS 軟體進行部分 F 檢定的分析。

(33)

第三節偵測影響點

一、影響點的偵測

影響點即指資料中的觀測點對於迴歸模式的影響，遠超過其他觀測點者。由以下五種方法可以檢定出影響點。檢定方法判斷準則 DFFITS 小樣本: 大樣本: COVRATIO DFBETAS 小樣本: 大樣本: 其中 p 為參數個數；n 為樣本數。

二、SAS 與 R 的部分 F 檢定之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析：

proc reg;

model y=x4 x5 /all;

model y=x4 x5 /Influence; run;

mod21=lm（y~x4+x5）

(34)

表 3‐3.1 偵測影響點 SAS output

表3‐3.2 偵測影響點 R output 由表 3‐3.1 SAS 報表可以得知，在有 x4 與 x5 兩個解釋變數的模型中，參數個數 p＝3，樣本數 n＝16 屬於小樣本。故當；

(35)

；；＝ 0.375 及＝1.5625 or ＝ 0.4375 時，此觀察值及有可能是影響點。由報表可知，第 3 筆與第 15 筆觀測值有可能是影響點。由表 3‐3.2 R 報表亦可得到與 SAS 相同的結果，且 R 軟體將偵測影響點的各種檢定方法中判斷準則的數值算出，即可從星號(＊)看出，此觀察值及有可能是影響點。由報表可知，第 3 筆與第 15 筆觀測值有可能是影響點。 2. 報表主觀的比較：

在偵測影響點下，SAS 需要先計算出各判斷準則的值，在由我們自行判斷比較，而 R 報表會直接用星號(＊)告知影響點，不需要再加以計算。雖然 R 可以簡單看出影響點，但卻不能得知觀察值在何種檢定方法下，被視為影響點。即使如此，我們依舊喜愛且建議使用 R 報表來偵測影響點，因為對於樣本數只有十六個的我們，當然是輕而易舉，但樣本數增加時，要將大樣本中的影響點判斷出來顯得比較麻煩，使用 R 的報表來偵測影響點，不僅省時又可以快速偵測出影響

第四章殘差診斷分析

在迴歸模型中，若誤差項為獨立之常態隨機變數且平均數為0，變異數為常數，則殘差會反映出誤差項的性質，這就是殘差分析的基本假設，也是一種用來檢驗統計模型之適當性的有效方法，因此我們對於誤差項的四種性質分別加以檢定。誤差項ε_i的假設： (1) E( )＝0。 (2) Var( )＝。 (3) Cov( , )＝0：。 (4) 服從常態。

第一節檢測殘差平均是否為零

一、檢測殘差平均是否為零

假設檢定：若 p‐value 小於顯著水準，表示拒絕。若 p‐value 大於顯著水準，表示不拒絕。

決策規則：

(36)

二、SAS 與 R 檢定殘差平均是否為零之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析： proc univariate normal plot;

var student; run;

mod3=lm(y~x4+x5) student3=(resid(mod3)‐mean(resid(mod3)))/var(resid(mod3)) library(stats) t.test(student3)

(37)

表 4‐1.1 檢測殘差平均是否為零 SAS output 表 4‐1.2 檢測殘差平均是否為零 R output 由表 4‐1.1 SAS 的報表可得知有基本的統計量，還有檢定假設殘差平均是否為零的 p‐value 值，這些 p‐value 皆大於顯著水準＝0.05，故不拒絕，意即殘差平均為 0。亦可看出殘差的 normal probability plot 呈一直線，符合常態分配，且對於誤差是否服從常態分配的假設之 p‐value 也都大於顯著水準＝ 0.05，故不拒絕，意即誤差服從常態分配。由 2‐1.2 R 的報表亦可得到相同的結果，因 p‐value=1，大於顯著水準＝0.05，故不拒絕，意即殘差平均為 0。 2. 報表主觀的比較： SAS 的程式碼只需短短打出幾行指令，不但可以進行殘差平均是否為 0 的檢定，還可得知其基本統計量，並且得到殘差是否符合常態的假設檢定之結果，因此在檢測殘差的基本假設上，我們喜愛使用 SAS 來進行分析。

(38)

第二節檢測殘差變異數是否為常數

一、檢測殘差變異數是否為常數

利用殘差圖判斷變異數是否為常數，若出如圖(a)，即表示變異數為常數，圖 (b)或圖(c)即表示異數不為常數：

二、SAS 與 R 的殘差變異數是否為常數之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析： PROC REG; MODEL y=x4 x5 ;

plot(student. rstudent.)*(x4 x5);

symbol1 v=star c=brown;

run;

mod3=lm(y~x4+x5) par(mfrow=c(2,2)) yhat=fitted(mod3) ##predicted values## plot(yhat,student3) plot(x4,student3) plot(x5,student3)

(39)

圖 4‐2.1 檢測殘差變異數是否為常數 SAS output 圖 4‐2.2 檢測殘差變異數是否為常數 R output 由圖4‐2.1和圖4‐2.2的殘差散佈圖可看出，解釋變數的殘差和標準化殘差的散佈圖，沒有明顯不規則、遞增或遞減的情況，因此判斷殘差變異為常數，符合誤差項的基本假設Var( )＝。 2. 報表主觀的比較： SAS 的 output 是一大張一大張分開的圖表，如需看出差異則要統一整理起來比較，相對於 R 加上指令 par(mfrow=c(2,2))來的麻煩。而兩個軟體在圖表上的顏色以及數據分佈的標示點，都可另外下指令以不同形式表現出來。因此在檢測殘差變異數是否為常數上，我們喜愛使用 R 來進行分析。

(40)

第三節檢測殘差殘差是否為獨立

一、檢測殘差是否相互獨立

當殘差不存在自我相關性時，才是一個好的配適模型，我們利用自我相關的 Durbin‐Watson 檢定判定第一階自我迴歸模型的自我相關參數是否為零，若是則相互獨立。 DW 檢定統計量檢測規則：當 DW 值為 2 時，表示此模型的殘差不具自我相關性。若 DW 值介於 0 到 2 之間則表示殘差存在正自我相關。而 DW 值介於 2 到 4 之間則表示殘差存在負自我相關。假設檢定：檢定規則：當Pr<DW 的值小於顯著水準 =0.05 時，表示顯著存在正自我相關。當 Pr>DW 的值小於顯著水準 =0.05 時，表示顯著存在負自我相關。

二、SAS 與 R 的殘差相互獨立檢定之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析： proc autoreg;

model y=x4 x5/dwprob; run;

library(lmtest)

dwtest(y~x4+x5,alternative="greater")

(41)

表 4‐3.1 檢測殘差是否相互獨立 SAS output 表 4‐3.2 檢測殘差是否相互獨立 R output 由表 4‐3.1 SAS 的報表得知 DW=2.2401，且 Pr>DW 為 0.3216 及 Pr<DW 為 0.6786，兩個值皆大於顯著水準 =0.05，不拒絕，表示殘差不具有相關性，故相互獨立，符合誤差項的基本假設 Cov( , )＝0；。由表 4‐3.2 R 的報表得知 DW=2.2401，正負相關檢定的 p-value 值也皆大於顯著水準 =0.05，不拒絕，表示殘差不具有相關性，故相互獨立，亦符合誤差項的基本假設 Cov( , )＝0；。 2. 報表主觀的比較： 檢測殘差有無自我相關時，利用 SAS 軟體只需一個指令就可以得到正自我相關、負自我相關的檢定結果及 DW 值，可直接由同一張報表看出檢定是否符合假

(42)

設；而 R 報表必須分別下指令看出各別的正負相關檢定是否符合，相對之下，SAS 的程式碼較為簡單，檢定也可從同一張報表看出。因此在檢測殘差是否相互獨立上，我們喜愛使用 SAS 來進行分析。

第四節檢測誤差是否為常態

一、檢測殘差是否為常態

我們利用Shapiro‐Wilk、Kolmogorov‐Smirnov、Cramer‐von Mises、Lillie與 Anderson‐Darling 這些方法來做誤差像是否為常態的假設檢定。假設檢定：檢定規則：若 p‐value 小於顯著水準，表示拒絕。若 p‐value 大於顯著水準，表示不拒絕。

二、SAS 與 R 的殘差是否為常態檢定之程式碼

1. SAS 程式碼： 2. R 程式碼：

三、SAS 與 R 報表的分析及比較

1. 報表分析：

proc univariate normal plot;

var student; run; library(nortest) ad.test(student3) cvm.test(student3) lillie.test(student3) pearson.test(student3) sf.test(student3) qqnorm(student3,main="Normal Q‐Q plot",xlab="Theoretical Quantiles", ylab="Sample Quantiles",plot.it=TRUE,datax=FALSE,col='red') qqline(student3,datax=FALSE)

(43)

(44)

表 4‐4.2 檢測殘差是否為常態R output

(45)

由表 4‐1.1 SAS 的報表可得知有基本的統計量，還有檢定假設殘差平均是否為零的 p‐value 值，這些 p‐value 皆大於顯著水準＝0.05，故不拒絕，意即殘差平均為 0。亦可看出殘差的 normal probability plot 成一直線，符合常態分配，且對於誤差是否服從常態分配的假設之 p‐value 也都大於顯著水準＝ 0.05，故不拒絕，意即誤差服從常態分配。由表 4‐4.2 R 報表可得知所有方法的檢定法結果之 p‐value 皆大於顯著水準 =0.05，不拒絕，表示誤差服從常態分配。而從圖 4‐4.3 可看 出 normal Q‐Q plot 大致上呈一直線，符合常態分配。 2. 報表主觀的比較： SAS 的程式碼只需短短打出幾行，就可看出各種檢定以及另外可得知出基本統計量，而從常態機率圖，也很清楚的看出是否符合常態；相對 R 程式碼須個別打出檢定的指令，所以不能只從一個 output 就看出是否符合假設。因此在檢測殘差是否為常態上，我們喜愛使用 SAS 來進行分析。

第五節最終模型

根據基本統計量分別找出資料的平均數及標準差，並加以分析解釋；接著使用相關係數分析變數間的相關程度高或是低；然後藉由散佈圖概略的看出變數間的基本關係，是正相關、負相關或是無相關；再用多重共線性的檢測方法，檢測解釋變數間是否存在高度相關性；重要的是選出重要的變數，並配適迴歸模型；最後對配適出的模型進行殘差基本假設的檢定，分別有殘差平均是否為零、判斷殘差變異數是否為常數、檢定殘差是否相互獨立、檢定誤差是否為常態…… 等，在所有假設均無誤下，得到我們的最終終模型如下：

第五章分析結果總結表

統計分析方法統計套裝軟體 R 統計套裝軟體 SAS 基本統計量相關係數散佈圖多重共線性離群值選擇重要變數部分 F 檢定

(46)

偵測影響點殘差分析法費用表 5‐1 SAS 與 R 的 output 優劣比較表

第六章結論與建議

由表 5‐1，可以發現依據分析方法的不同，SAS 與 R 皆有其優劣之處，而每種套裝軟體都有本身它的優缺點，所以才會有如此多種的套裝軟題發明，以補及不足之處。在這次的比較報告中，我們建議可以依照數據的需要、分析方法的不同，將套裝軟體 SAS 跟 R 同時交互使用，以達到最大的效益；相對地，每個分析方法也有其適合的軟體，希望這份報告可以做為未來學弟妹研究的範疇，將統計套裝軟體發揮淋漓盡致，發現它更多的功能，以達到最佳的分析結果。

參考文獻

1. 資料來源分析： http://webclass.ncu.edu.tw/~tang0/Chap12/Sas12.htm#範例 12.1 2. SAS 與 R 的程式碼範例： http://www.stat.sc.edu/~hitchcock/stat704.html 3. 書籍： SAS 1‐2‐3 作者: 彭昭英 / 出版社: 臺北市儒林 2010[民 99] 4. 維基百科： http://zh.wikipedia.org/zh/SAS%E7%B3%BB%E7%BB%9F

套裝軟體R與SAS之優劣分析比較

報告題名：

套裝軟體 R 與 SAS 之優劣分析比較

中文摘要

關鍵字：

R、SAS、複迴歸、統計軟體

目 錄

表目錄

圖目錄

第一章 緒論

第一節 研究背景

第二節 研究動機

第三節 研究目的

第四節 研究方法

第五節 研究流程

第二章 資料分析

第一節 資料的讀取

一、資料簡介

二、SAS 與 R 的資料讀取之程式碼

第二節 一般基本統計量

一、何謂基本統計量

二、SAS 與 R 的基本統計量之程式碼

三、SAS 與 R 報表的分析及比較

第三節 相關係數

一、何謂相關係數

二、SAS 與 R 的相關係數之程式碼

三、SAS 與 R 報表的分析及比較

第四節 散佈圖

一、何謂散佈圖

二、SAS 與 R 散佈圖繪製的程式碼

三、SAS 與 R 報表的分析及比較

第五節 檢測變數間有無多重共線性

一、何謂多重共線性

二、SAS 與 R 的多重共線性檢測之程式碼

三、SAS 與 R 報表的分析及比較

第六節 離群值

一、離群值有三大類:

二、SAS 與 R 的離群值之程式碼

三、SAS 與 R 報表的分析及比較

第三章 多元迴歸分析法

第一節 選擇重要變數

一、向前選取法(Forward Selection)

二、向後消去法(Backward Selection)

三、逐步迴歸法(Stepwise regression methods)

四、全部子集迴歸法(All‐subsets Regression)

第二節 部分 F 檢定

一、何謂部分 F 檢定

二、SAS 與 R 的部分 F 檢定之程式碼

三、SAS 與 R 報表的分析及比較

第三節 偵測影響點

一、影響點的偵測

二、SAS 與 R 的部分 F 檢定之程式碼

三、SAS 與 R 報表的分析及比較

第四章 殘差診斷分析

第一節 檢測殘差平均是否為零

一、檢測殘差平均是否為零

二、SAS 與 R 檢定殘差平均是否為零之程式碼

三、SAS 與 R 報表的分析及比較

第二節 檢測殘差變異數是否為常數

一、檢測殘差變異數是否為常數

二、SAS 與 R 的殘差變異數是否為常數之程式碼

三、SAS 與 R 報表的分析及比較

第三節 檢測殘差殘差是否為獨立

一、檢測殘差是否相互獨立

二、SAS 與 R 的殘差相互獨立檢定之程式碼

三、SAS 與 R 報表的分析及比較

第四節 檢測誤差是否為常態

一、檢測殘差是否為常態

二、SAS 與 R 的殘差是否為常態檢定之程式碼

三、SAS 與 R 報表的分析及比較

第五節 最終模型

第五章 分析結果總結表

第六章 結論與建議

參考文獻

目錄

第一章緒論

第一節研究背景

第二節研究動機

第三節研究目的

第四節研究方法

第五節研究流程

第二章資料分析

第一節資料的讀取

第二節一般基本統計量

第三節相關係數

第四節散佈圖

第五節檢測變數間有無多重共線性

第六節離群值

第三章多元迴歸分析法

第一節選擇重要變數

第二節部分 F 檢定

第三節偵測影響點

第四章殘差診斷分析

第一節檢測殘差平均是否為零

第二節檢測殘差變異數是否為常數

第三節檢測殘差殘差是否為獨立

第四節檢測誤差是否為常態

第五節最終模型

第五章分析結果總結表

第六章結論與建議