第三章、 交通可及性指標之建立與分析方法
3.3 交通可及性之相關分析方法
本節主要說明本研究所使用之交通可及性相關分析方法:文獻回顧法、線性迴歸、
無母數檢定、集群分析。
3.1.1 文獻回顧法
文獻回顧法又稱為文件分析與資訊分析,早於十八世紀便已開始運用,由於其具有 不受空間與時間的限制、不會影響觀察者且資料取得容易,故自 1930 年後,成為社會 科學中重要的研究方法之一。Berelson(1952)最早為內容分析法下完整的定義,其認為內 容分析系以客觀系統化與定量的方式探討傳播媒介所包含之訊息的方法,其中傳播媒介 包括所說的話、圖片、抱指、雜誌、法律與書本等,依據資料的內容透過分類規則的擬 定,以系統化分析的不造探討特定時間內某現象之發展的狀況。文獻回顧法又可分為質 化與量化,質化的內容分析為一主觀程序,係對傳播資料做初步閱讀,以行程假說與發 現新的關係。量化的內容分析則是計算觀察資料各特性出現的頻率,分析的步驟如下圖 3-2 所示:
圖 3-2 文獻回顧法的分析步驟
資料來源:(KLAUS,1980)
所謂系統性文獻回顧法,是指針對某一主題,擬定完整的文獻檢索、搜尋策略,並 進行嚴謹的批判、評價步驟,綜合多篇文章的結果,減少因單篇文章的限制與偏誤,增 加結論的信度與正確性。透過系統性文獻回顧法,可做為實務指引及臨床決策分析時的 參考依據,減少因操作或執行不當而導致臨床照護水準的差異。Cook 等人(1998)表 示,在整合數個研究的過程中,若未使用統計方法,稱為質性系統性文獻回顧(qualitative systematic review);而運用統計法去整合數篇研究的過程則稱為量性系統性文獻回顧
(quantitative systematic review)或稱統合分析(meta-analysis)。朱浤源(2000)認為文獻 評論至少有九個基本目的:
1.讓讀者了解既存研究中有關研究的發展進度,與辨識出改進之可能性。
2.提供新研究者一個思考,未來研究是否可以找出更有義義與更顯著的結果。
3.對各種理論的立場說明可以提出不同的概念架構,作為假設研究的基礎。
4.對某行為或現象可能解釋。
5.辨識概念之間的前提假設。
6.理解並學習他人如何界定與衡量關鍵概念。
7.辨識其他研究者的資訊來源。
8.批評與改進既存研究,發展出另類研究。
9.發掘新研究與印證其他相關研究。
資料蒐集 資料濃縮 推論 分析
驗證 被推論現象的直接證據
28
文獻回顧法(文獻探討法)是一種對學術進展背景做研究,其來源與範圍大致可以分 為三類:第一是相關科學的研究報告、定期刊物及學術、學位論文;第二是類似的科學 與理論;第三則是一般論著、通俗典故、報紙、法令文件等(章光明等,
2002)、謝雨生(2003)認為文獻回顧法的目的在於為研究方向提供準則、為理論發展 找到定位、為研究操作理出頭緒、為研究假設推演理路、為研究分析尋找新向、為研究 突破創造契機、為研究對話準備基礎。此法是建立研究知識基礎上,最普遍採用的方法之 一,除可透過本法很快做初步的規納與分析、釐清研究標的範圍的關聯性外,更重要的是 可以在提出論點時,做適時的佐證與比照。
3.3.2 線性迴歸
迴歸分析經常用在解釋和預測二大方面,有關解釋方面,我們可以從取得的樣本,
計算出迴歸的方程式,再透過迴歸的方程式得知每個自變數對依變數的影響力(貢獻),
當然也可以找出最大的影響變數,以進行統計上和管理意涵的解釋。有關預測方面,由 於迴歸方程式是線性關係,我們可以估算自變數的變動,會帶給依變數的多大改變,因 此,我們使用迴歸分析來預測未來的變動。
在使用迴歸分析前,必須要確認資料是否符合迴歸分析的基本統計假設,否則,當 資料違反迴歸分析的基本統計假設時,會導致統計推論偏誤的發生。迴歸分析的基本統 計假設有下列四項:
1. 線性關係
依變數和自變數之間的關係必須是線性,也就是說,依變數與自變數存在著相當 固定比率的關係,若是發現依變數與自變數呈現非線性關係時,可以透過轉換(transform) 成線性關係,再進行迴歸分析。
2. 常態性(normality)
若是資料呈現常態分配 (normal distribution),則誤差項也會呈現同樣的分配,當 樣本數夠大時,檢查的方式是使用簡單的 Histogram (直方圖),若是樣本數較小時,檢 查的方式是使用 normal probability plot (常態機率圖)。
3. 誤差項的獨立性
自變數的誤差項,相互之間應該是獨立的,也就是誤差項與誤差項之間没有相互 關係,否則,在估計迴歸參數時,會降低統計的檢定力,我們可以藉由殘差(Residuals) 的圖形分析來檢查,尤其是與時間序列和事件相關的資料,特別需要注意去處理。
4. 誤差項的變異數相等(Homoscedasticity)
自變數的誤差項除了需要呈現常態性分配外,其變量數也需要相等,變量數的不相等 (heteroscedasticity)會導致自變數無法有效的估計應變數,例如:殘差分佈分析時,所 呈現的三角形分佈和鑽石分佈,在 SPSS 軟體中,我們可以用 Levene test,來測試變 異數的一致性,當變異數的不相等發生時,我們可以透過轉換(transform)成變異數的相 等後,再進行迴歸分析。
選擇變數進入的方式(以得到最佳的迴歸模式)在進行迴歸分析時,大部份的情形是 有多個自變數可以選擇使用在迴歸方程式中,我們想要找到的是能夠以較少的自變數就 足以解釋整個迴歸模式最大量,然而,其存在問題是我們應該選取多少個自變數,又應
29
如何選擇呢?我們整理選擇自變數進入迴歸模式的方式如下:
1. 確認性的指定
以理論或文獻上的理由為基礎,研究人員可以指定哪些變數可以納入迴歸方程式中,
但必須注意的是,研究人員必須能確認選定的變數可以在簡潔的模式下,達到最大 量的解釋。
2. 順序搜尋法(Sequential Search Methods)
順序搜尋法是依變數解釋力的大小,選擇變數進入迴歸方程式,常見的有向前增加 (Forward Addition)、往後刪除(Backward Elimination)、逐次估計(Stepwise Estimation) 三種,我們分別介紹如下:
a.向前增加(Forward Addition):自變數的選取是以達到統計顯著水準的變數,依解 釋力的大小,依次選取進入迴歸方程式中,以逐步增加的方式,完成選取的動作。
b.往後刪除(Backward Elimination):先將所有變數納入迴歸方程式中求出一個迴歸 模式,接著,逐步將最小解釋力的變數刪除,直到所有未達顯著的自變數都刪除為止。
c.逐次估計(Stepwise Estimation):逐次估計是結合向前增加法和往後刪除法的方式,
首先,逐步估計會選取自變數中與應變數相關最大者,接著,選取剩下的自變數中,部 份相關係數與應變數較高者 (解釋力較大者),每新增一個自變數,就利用往後刪除法檢 驗迴歸方程式中,是否有需要刪除的變數,透過向前增加,選取變數,往後刪除進行檢 驗,直到所有選取的變數都達顯著水準為止,就會得到迴歸的最佳模式。
迴歸模式的顯著性檢定,一般都使用 F test (檢定),F 檢定將所有自變數計算進來,
看應變數 Y 和所有自變數 Xn 是否有統計的顯著性。F 檢定的虛無假設(Null hyposesis) 如下:
H 0 :β 1 = β 2 ….. = βn = 0 式(3-1) H1:Not all β i = 0 ( i = 1,2, …., n ) 式(3-2)
我們會將資料計算所得到的 F 值與查表所得的 Fcrit 比較:若 F>Fcrit:顯著性存 在,推翻虛無假設,需要作進一步的檢定或解釋。若 F≦Fcrit:顯著性不存在,接受虛 無假設,研究者不需要作進一步的檢定,但仍需要作解釋。F 值的計算公式如下:
regression df
/ total SSE
regression df
/ regression
SSE
F 式(3-3)
其中:
df regression = (k-1),k 為估計母數的數目。
df residual = n-k,k 為估計母數的數目,n 為樣本數。
Fcrit = F (k−1,n−k ),查表可得 F 值。
決 定 係 數 (coefficient of determination)R2 是 用 來 解 釋 線 性 迴 歸 模 式 的 適 配 度 (goodness of fit),R2=0 時,代表依變數(Y)與自變數(X n )没有線性關係,R2≠0 時,代表
30
依變數(Y)被自變數(X n )所解釋的比率,計算公式如下:
SST
R2 1 SSE 式(3-4)
其中 SSE 為誤差變異量,SST 為總變異量。
在迴歸模式中,R2會用來說明整個模式的解釋力,但是 R2會受到樣本大小的影響 而呈現高估現象,樣本愈小,愈容易出現問題(高估),因此,大多數的學者都採用調整 後的 R2,也就是將誤差變異量和依變數(Y)的總變異量都除以自由度 degree of freedom.
(df) 如式 4-5 所示。經自由度的處理後,我們就可以避免樣本太小而導致高估整個迴歸 模式的解釋力。
SST of df / SST
SSE of df / 1 SSE R
Adjusted 2 式(3-5)
在迴歸模式具有統計顯著性後,我們想要看看在迴歸方程式中,那些自變數(Xn ) 對依變數(Y)有較大的影響力,在原始的資料中,若是尺度衡量不一致,例如:體重的 公斤、公克,身高的公尺、公分,都會產生解釋迴歸變量的問題,因此,我們必須使用 標準化的係數,也就是對原始的自變數(Xn )予以標準化,標準化後的變數,不會受到不 同尺度衡量的影響,由標準化的自變數所計算而得到的迴歸係數,我們稱為β 係數 (beta 係數),擁有 β 係數愈高的自變數(Xn ),對依變數(Y)的影響力愈大。當自變數們(Xn )有 共線性的問題時,代表自變數(Xn )有共同解釋的部份,個別的自變數(X),無法確認對 依變數(Y)有多大的影響,那我們如何辨識自變數們(Xn )有共線性的問題呢?下列 2 個 步驟可以辨識共線性的問題:
1. 查看相關係數,超過 0.8 就已經太高了,可能有共線性問題。
2. 查看容忍值(tolerance),容忍值 = (1- 自變數被其它變數所解釋的變異量),容忍值 ( 0~1 之間),愈大愈好,容忍值愈大,代表共線性問題愈小,容忍值的倒數 = 變異 數膨脹因素 (VIF, variance inflation faction),VIF 的值愈小愈好,代表愈没有共線性 問題。
當發生共線性問題時,我們可以採用 1.忽略高相關變數、2.只作預測,不作解釋迴 歸係數、3.用來了解關係、4.使用其它迴歸分析,來處理共線性的問題。驗證結果的目 的是想要確認是否可以代表母體,我們想要驗證迴歸模式時,可以使用 2 個獨立的樣本,
或同一個樣本,分割成 2 個樣本,進行迴歸分析後,若是二個樣本没有顯著差異,就代 表樣本有一致性,表示我們得到的迴歸模式經過驗證後,可以代表母體。
3.3.3 無母數檢定
絕大部分的統計研究的統計推論均假設抽樣樣本是來自某種母體其分佈是已知的
絕大部分的統計研究的統計推論均假設抽樣樣本是來自某種母體其分佈是已知的