• 沒有找到結果。

第三章 研究方法與材料

第二節 研究方法

一、 建立複迴歸模型

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

第二節 研究方法

一、 建立複迴歸模型

複迴歸分析(Multiple regression analysis)用以探討一個依變數和多個 自變數的函數關係,其可達到之目的除了解自變數與依變數的關係、影響 方向與影響程度外,並可利用自變數與推估的方程式對依變數進行預測。

複迴歸分析之表示式如下:

Y = 𝛽0+ 𝛽1𝑋1+ 𝛽2𝑋2+ ⋯ + 𝛽𝑛𝑋𝑛 (3. 1) 式中,Y為依變數,𝑋1,…, 𝑋𝑛為自變數,𝛽0為常數,𝛽1,…, 𝛽𝑛為迴歸係 數。然最佳的迴歸模式期望能夠以較少的自變數即足以解釋整個迴歸模式 的最大量,因此如何選擇自變數進入迴歸模式為重要的步驟。後續將依序 說明本研究依變數、自變數、變數選擇方法及模型驗證和分析方式(林惠 玲、陳正倉,2011;榮泰生,2013)。

複迴歸分析中之逐步迴歸法(Stepwise method)為自變數被篩選進迴歸 方程式之方法,其過程結合向前增加法(Forward addition)和向後刪除法

(Backward elimination)選進變數,持續到所有保留在迴歸方程式中自變項 都是達到顯著水準、淘汰的自變數為不顯著之變項為止,此方法可將共線 性的問題排除(蕭文龍,2007)。

逐步迴歸法之方式有助於釐清與依變數顯著相關之自變數為何及其影 響程度,也因此其應用層面相當廣闊,包含於各個領域的變數篩選、統計分 析等。自然資源領域的相關應用則常見在生物量的估算或植生指標的預測,

近年也常有研究將遙感探測技術獲取之數據一併投入逐步迴歸分析;如 Ramoelo, Cho, Mathieu, Skidmore, Schlerf and Heitkönig(2012)利用遙感探 測數據評估草原生態系統中營養物質、生物量作為牧場(牧草)質量、數量 的指標,其中運用了逐步線性迴歸的方法建立生物量地圖,分析過程有效 篩選影響較大之因子,得改善最終迴歸模型之預測精度。Balaghi, Tychon, Eerens and Jlibene(2008)利用 NDVI、降水和溫度對於摩洛哥長年小麥產

然現象的推估預測,如 Anderson, Aziz, Tootle, Grissino-Mayer and Barnett

(2012)以太平洋氣候變化之因子改善對水文循環的重建,其亦採用逐步 線性迴歸來確定最佳的預測組合,結果顯示太平洋表面溫度和氣候訊號確 實能有效進行上綠河流域(the Upper Green River Basin , UGRB)積雪重建 的模擬。沈紅、劉文兆(2011)將宏觀的地理因子與降水要素結合,以逐步

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

後者由夏季逐漸進入冬季,無論在氣溫、降雨、相對溼度等等氣候條件之整 體變化趨勢皆有所差異,為求蒸發散量的推估能更加精確並貼近實際狀況,

故進一步將一期和二期稻作蒸發散量複迴歸分析分開進行,以期獲得一期 和二期稻作各自的蒸發散量推估模型。

(二) 自變數之選擇

蒸發散為水文循環中地面水受熱返回大氣中之形式,亦為水文循環的 動力,而影響水分蒸發和植物葉面蒸散的因子甚多,主要有溫度、風、溼度 等氣象條件及土地使用、植物種類等土地覆蓋條件(Allen et al., 1998; Chow, Maidment and Mays, 1988;王如意、易任,1999;林永禎等人,2010)。然 本研究欲依使用者特定時間需求推估出稻作地區蒸發散量,故選擇可能相 關且易取得之氣象因子作為自變數,包括氣溫、降水量、風速、日照時數及 相對溼度。

另以 MODIS 之 MOD13Q1 植生指標產品(250 m × 250 m)的常態化 差異植生指標(NDVI)作為另一項自變數,其每 16 天釋出一組資料,依 NDVI 值之變化將可表示稻作生長期各階段之變化。

(三) 逐步迴歸法

為普遍被選用的自變數篩選方式,其結合向前增加法和向後刪除法之 方法,首先選取自變數中與依變數相關最大者,後依據所剩自變數對依變 數的影響程度,逐一放入迴歸模式中,直到所有選取變數達顯著水準後即 得迴歸之最佳模式。當迴歸方程式的自變數數目很多時,逐步迴歸法是特 別適用的;逐步迴歸分析過程可將共線性的問題排除。綜上所述,逐步迴歸 法之詳細步驟如下(榮泰生,2013):

1. 在迴歸方程式中原來不包括任何自變數,首先進入迴歸方程式的是與 依變數相關最高的自變數。

2. 其次控制住進入迴歸方程式的自變數,後根據每個自變數與依變數之

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

間的淨相關(partial correlation)的高低來決定進入迴歸方程式的順序,

而進入迴歸方程式的標準在於自變數的標準化迴歸係數必須通過 F 值 規定之標準。

3. 已經納入迴歸方程式的自變數必須再經過向後刪除法的檢定,以決定 該變數是否被保留。進入迴歸方程式的變數若符合剔除標準,則會被 淘汰,即剔除於方程式之外。

綜合向前增加法與向後刪除法,直到最後仍保留在方程式中的預測變 數都達顯著水準、淘汰的預測變數為不顯著之變數,此方法兼具向前增加 法與向後刪除法的優點,經常被研究者所使用(邱政皓,2000)。故本研究 將以蒸發散量為依變數、氣象因子和 NDVI 為自變數,以逐步迴歸法篩選 因子並建立稻作兩期蒸發散量推估模型。

(四) 模型驗證與分析

1. 迴歸方程式之配合度

複迴歸分析可由複決定係數(𝑅2)或調整複決定係數(𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅2) 評估複迴歸方程式的配適度(𝑔𝑜𝑜𝑑𝑛𝑒𝑠𝑠 𝑜𝑓 𝑓𝑖𝑡)或解釋能力,並利用 F 檢 定迴歸方程式所有自變數對依變數是否有聯合解釋的能力,即檢定複迴歸 方程式是否可被接受。

依變項的總變異量(𝑆𝑆𝑇)為迴歸預測變異量(𝑆𝑆𝑅)與誤差變異量(𝑆𝑆𝐸)

之和,即:

𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸 (3. 2)

∑(y − 𝑦̅)2 = ∑(𝑦̂ − 𝑦̅)2+ ∑(𝑦 − 𝑦̂)2 (3. 3)

1 −

𝑆𝑆𝐸𝑆𝑆𝑇

=

𝑆𝑆𝑅𝑆𝑆𝑇

= 𝑅

2 (3. 4)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

𝑅2為迴歸式可解釋的變異量比,表示用𝑥去預測𝑦時的預測力,亦為𝑦變 項被𝑥變項所解釋的比率,比率愈大則解釋力愈高。然此值若要具有統計上 的意義則須經𝐹檢定。然𝑅2缺點為若樣本數小或自變數個數增加時,會使自 由度變小、𝑅2產生高估之結果。為消除樣本數大小之影響,可採用調整複 決定係數:

𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅

2

= 1 −

𝑆𝑆𝐸/(𝑛−𝑘−1)

𝑆𝑆𝑇/(𝑛−1) (3. 5) 其中,𝑛為樣本數、𝑘為自變數個數。

𝐹檢定為檢定迴歸方程式所有自變數對依變數是否有聯合解釋的能力,

虛無假設𝐻0為迴歸方程式無解釋能力;而𝐻1為至少有一個迴歸係數不為 0 或迴歸方程式的解釋變數有聯合解釋能力。利用迴歸分析中變異數分析之 方法檢定:

𝐹 =

𝑆𝑆𝑅/(𝑛−𝑘−1)𝑆𝑆𝑅/𝑘

=

𝑀𝑆𝑅𝑀𝑆𝐸

~𝐹

𝑘,𝑛−𝑘−1 (3. 6)

若𝐹 > 𝐹𝑘,𝑛−𝑘−1,𝛼,則拒絕𝐻0;若𝐹 ≤ 𝐹𝑘,𝑛−𝑘−1,𝛼,則不拒絕𝐻0。拒絕𝐻0 表示迴歸方程式的自變數對依變數有解釋能力,迴歸模型可被接受。反之,

則表示迴歸方程是不具解釋力、不宜利用估計的迴歸方程式進行解釋或預 測,而須進一步深入究其原因或重新建立迴歸方程式(邱皓政,2000)。

2. 樣本外預測

除前述迴歸模型之檢定,本研究亦參考經濟學中、時間序列分析常用 之「擬真樣本外預測(pseudo out-of-sample forecasting)」概念,簡稱「樣 本外預測(out-of-sample forecasting)」。其概念將所擁有之𝑇筆資料拆分為 已知部分的𝑅筆樣本內資料(in-sample observations)─用以估計模型,另一 為假設未知部分的𝑃筆樣本外資料(out-of-sample observations)─用此部分 資料與模型估算資料作比較,藉以評估模型的推估能力,𝑅 + 𝑃 = 𝑇,一般 而言,樣本外資料佔全部資料之比例(𝑃/𝑇)為10%或15%。樣本外預測受

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

到重視之原因為其可以避免計量模型的過度配適(over-fit)或是資料開發 之濫用(data-mining)(陳旭昇,2013)。