第三章 研究設計與實施
第二節 採用統合分析法的原因
一、何謂統合分析
依據Glass(1976)對於統合分析的定義:「整合許多個別研究結果的統計分 析」(p.3)。簡言之,統合分析即「分析的分析」(the analysis of the analysis),亦 即針對某特定領域內諸多獨立研究的結果,運用量化統計的技術再進行分析,以 尋求一般性的結論,且所產出的是有意義的結果(賀德潤,1997)。由於傳統的 文獻探討多為質性的、描述性的,而描述性的文獻探討(narrative literature reviews)是以文字敘述為主,無法得到較客觀的證據來說明文獻探討的結果,且 容易受到研究者之主觀因素影響。統合分析的發展解決了許多過去不易說明或解 決的問題,對於學術的發展貢獻良多,其功能大致有:探索事實真相、促進理論
發展與演進,以及深入探討變數之間的關係(Guzzo, Jackson & Katzell, 1986;
Hunter & Schmidt, 1990; Rosenthal, 1979;Smith & Glass, 1977)。
二、統合分析之優點、批評及改進方法
(一)統合分析之優勢
統合分析是一個統整研究文獻的有效方法(Green & Hall, 1984),Abrami 與 Bernard(2006)歸納其他學者的意見後,認為統合分析的優點有:
1. 回答效果量的問題;
2. 有系統地探索效果量的變異來源;
3. 將重心放在研究之比較而非聚焦於個別研究,因此能有效控制研究的內在 效度;
4. 統整相當數量的個別研究,故研究結果具外在效度或推論性;
5. 分析大量的個別研究而增進統計力(statistical power);
6. 依據樣本數決定效果量的權重,具有大樣本之研究可獲得較高的權重;
7. 可加入新出版的或刪除不適合的文獻而獲得與時俱進之分析結果;
8. 整合個別研究之結果可能產生新的研究方向時,研究者可在未來的分析中 增加新的研究變項;
9. 為了一些特殊目的,可以針對部分的資料進行多次分析;
10. 可針對我們已知的、未知的,以及需要知道的進行評論。
(二)統合分析之批評
對於統合分析的批評大致可歸納為以下四項(Cook & Campbell, 1979; Glass et al., 1981; Hunter & Schmidt, 2004; Jackson, 1983; Wolf, 1986; Wortman, 1983):
1. 蘋果和橘子的問題(the apples and oranges problem)
許多學者批評將不同的研究放在一起比較是不合理的,因為這些研究在研究 方法、測量技術、受試者、受試情境等各不相同,如同將橘子和蘋果混為一談,
毫無意義。
2. 研究品質異質性問題(heterogeneity of quality)
批評者認為後設分析對研究之品質無嚴格監控,將設計或品質不佳的研究納 入分析可能產生誤導的結果。
3. 獨立性問題(problem of independences)
同一研究可能產生多個效果值,這些效果值來自相同的受試者所產生的不同 結果,其相關性甚高,彼此不獨立,若草率進行整合,容易錯估研究結果,違反 了獨立性原則。
4. 抽樣偏差與文屜問題(sample bias and file drawer problem)
統合分析必須依賴研究者的報告,因擷取之偏誤,可能所擷取到的研究無法 代表所有被進行過的研究的母群體,例如已出版之研究較常達顯著水準,被刊登 的機率相對增加,而其效果量也會較未出版之研究為高,所以已被刊登的研究並 不能代表被進行過的所有研究,此問題也被稱為出版偏差(publication bias)。
(三)統合分析之改進措施 1. 校正出版偏差
Kraemer 與 Andrews(1982)指出,一般在各期刊、學報中所刊載的研究大 多是達到顯著水準或是編輯者主觀認可的結果,而這樣的現象常會使統合分析後 的結果失真,達不到統合分析最初的目的。故據此而得到的結果通常都是正向且 高估的。而解決出版偏差之方法有:將出版與非出版的研究分別做統合分析,以 及計算尚須幾篇不顯著的研究方能推翻統合分析的結論(此法稱為fail-safe n)。
2. 校正研究品質
在統合分析中常被批評將很多不同研究品質的研究混在一起,就好像橘子蘋 果混在一起成大雜燴一樣,針對此問題,最好的方式便是對各研究的結果進行加 權(weight)。對於個別研究的加權方式有很多不同的型式,如 Hedges 與 Olkin
(1985)是使用各研究變異數的倒數為加權量,變異越大則顯示研究品質較有問 題,故給予較小的加權數;反之則給予較大的加權數。Rosenthal(1991)則採用 自由度作為加權數,以校正研究品質。而Hunter 與 Schmidt(1990)認為可依據 樣本數進行加權。此外,Hunter 與 Schmidt(1990)則針對各研究因其所使用之 工具信度所造成的影響加以校正,以做為對個別研究其研究品質的校正。
3. 運用同質性考驗
在統合分析中的各個研究,其研究設計、研究樣本、抽樣方式等方面可能都 不相同,因此各獨立研究的結果間可能是異質的。當研究之間是異質時,則不可 將這些研究放在一起做統合分析,甚至是要分開處理。而針對此問題最佳的處理 方式便是進行同質性的考驗。進行同質性考驗後,若發現研究之間是異質時,則 需從各種原因中找出可能的中介變項,不可輕易地將這些研究放在一起進行統合 分析。
4. 資料不獨立的問題
統合分析中常將同一研究的多項結果當作多個獨立的研究結果來分析,如此 將給讀者錯誤的印象,以為這些結果很一致,但其實這些結果是不同的(詹志 禹,1988)。對此,Rosenthal(1991)建議最好是分別進行統合分析。
三、統合分析之類型與效果量指標
(一)統合分析之類型
目前的統合分析可概分為Hedges 與 Olkin(1985)、Hunter 與 Schmidt
(1990),以及 Rosenthal (1991)等三種。說明如下:
1. Hedges 與 Olkin(1985)
以「成對的平均數、標準差」為分析資料,透過變異數的倒數為進行加權。
效果量指標是d 值,而 d 值它是每一對比較的標準化,經過標準化的過程後,
源自不同研究文獻的資料即可進行計量性統合,以探究累積資料的效果量。
2. Hunter 與 Schmidt(1990)
以相關係數為分析資料,利用樣本數進行加權,也有多種校正誤差的技術,
包括抽樣誤差、測量誤差、全距限制等。此方法之效果量不採用顯著性檢定,改 以信賴區間的方式進行,主要是因為Hunter 和 Schmidt 認為以信賴區間進行考 驗,則發生第一類錯誤的機率可以控制在5%,但顯著性檢定不行。
3. Rosenthal(1991)
將相關係數經Fisher’s Z 轉換後的 Zr為分析資料;以自由度為加權數,並特 別強調同質性的分析。結合之前必須先進行比較,若比較的結果顯示其同質性呈 顯著,則不可進行結合,須探討其中介變數;若是同質性檢定不顯著後才可進行 結合。
(二)統合分析之效果量指標
目前已有許多效果量的衡量指標,而不同的衡量指標通常涉及不同的統合分 析技術及理念。因此,決定以何種效果量指標為研究依據便牽涉到整個分析研究 的結果。一般而言,考驗統計量是效果量與樣本數的積。
表 3-1 效果量指標
資料來源:Rosenthal, R. (1991). Meta-analytic procedures for social research ( Rev.ed.). Beverly Hills, CA: Sage.
Rosenthal(1991)曾將最常使用的效果量指標整理如表 3-1。在表 3-1 第一類 是採用r,第一個 r 是一般最常使用的皮爾遜積差相關或點二系列相關(point biserial correlation)。第二個指標(r/k)較少使用,使用它的目的乃因當它乘上 自由度的1/2 次方時即可得到顯著性考驗 t 值。此外,若是所研究的兩群體 n1=n2
時,則(r/k)=(d/2)(Cohen, 1988; Friedman, 1968)。第三個 Zr 則是 r 經過 Fisher 轉換後的 z 值,一般說來 Zr 較 r 為佳,因為 Zr 不會像 r 產生非線性的偏 誤。最後一個Cohen’q 則是將兩個經轉換過的 Zr 值相減以做為效果量的指標。
第二類是計算d 值,三個指標均是將兩平均數相減再除以標準差,但不同的 是Cohen’s d 值的公式所用的分母是母群的標準差 σ,因此在求 σ 的過程中所使用 的分母是N,而不是(N-1)。而 Glass’s △所用的標準差是控制組的標準差,因 為Glass 認為實驗組經過實驗之後其本質已經有了改變,採用控制組的標準差作 分母所得的效果量較為精準(Glass et al., 1981)。而 Hedges’s g 則是以聯合的標準 差作為分母,Hedges 與 Olkin(1985)認為實驗組與控制組的變異應該相差不
多。故採用聯合的標準差做為分母是較為正確的作法。但一般說來Hedges’s g 仍 有稍許的偏誤,因此須再加以校正成不偏估計d 值。
第三類是利用百分比來做為效果量的指標。除了表3-1 中三種族類之效果量 指標,仍有其他計算方式,如Kraemer 與 Andrews(1982)、Krauth(1983)曾提 出以中數而非平均數做為比較而得的效果量指標,但仍以表3-1 中的三種族類普 遍受到採用,其中又以Hedges 的不偏估計 d 值使用頻率最高。
四、固定效果(fixed-effect)與隨機效果(random-effects)模式
固定效果模式是假設所有納入統合分析的所有研究文獻,存在著一個相同的 效果量。也就是所有因素對於效果量的影響,在所有研究文獻都是一樣的。因此 觀察之效果量的變異都是源自於各研究文獻的抽樣誤差。然而,即使在進行不同 研究文獻的統合時,每一筆文獻必定有其相似之處,但是假設效果量都是一樣的 也不盡合理。因此近期統合分析研究多半假設研究文獻之間的效果量存在著隨機 分布的誤差,基於基本假設的差異,則在後續進行效果量估算時所採用的計算方 法也不同。
五、心理計量統合分析(psychometric meta-analysis)
Schmidt 與 Hunter(2015)認為探討變數之相關情形的研究文獻,會因為抽 樣誤差、測量誤差、連續變數二分化、範圍的變異、構念之效度差異、報告或轉 換的誤差,以及外來因素造成的變異等原因,造成所獲得之相關情形與真實相關 情形呈現差異。然而,受限於研究文獻所提供之資料的完整性,因此多半僅針對 抽樣誤差、測量誤差及範圍變異進行修正。欲修正抽樣誤差,則所有研究文獻之 統合後的平均效果量,並非僅是簡單地將所有相關係數加總後再除以個數而得,
而是要求取以樣本數進行加權後的平均值。所以求取平均r 值之效果量指標的公
而是要求取以樣本數進行加權後的平均值。所以求取平均r 值之效果量指標的公