• 沒有找到結果。

有關假設檢定的一些誤解

N/A
N/A
Protected

Academic year: 2021

Share "有關假設檢定的一些誤解"

Copied!
13
0
0

加載中.... (立即查看全文)

全文

(1)

有關假設檢定的一些誤解

鍾經樊* 在貝氏架構下的假設檢定,其虛無假設的真偽是一個隨機事件,於假設檢定完 成後,不論是否拒絕虛無假設,我們想要問的問題是假設檢定的結果是否真能 反應虛無假設的真偽,但以「型一誤差」和「型二誤差」為中心的假設檢定理 論,並不能直接回答這個問題。此外,我們也討論對型一誤差和型二誤差不對 稱處理的後果,以及樣本數對假設檢定「顯著」結果的影響。 關鍵詞:假設檢定準確度、預測力、型一誤差、型二誤差 JEL 分類代號:C120

1 緒論

在這篇短文中我們將對假設檢定手續的三項特質進行檢討和批 評,相關的說法也散見於期刊論文及統計學或計量經濟學的教科 書,只要是在實證研究中做過假設檢定的研究者,對於本文所討 論的問題或多或少都會有些認識。

2 貝氏架構下的假設檢定

在進行統計學的假設檢定時,若所設定的虛無假設是否成立本身 是一個不確定的事件,也就是說,虛無假設成立的「先驗概率」 不是 0 或 1,而是一個介於 0 和 1 之間的分數,則不管假設檢定的 準確度有多高,若虛無假設成立的可能性很低時,則縱使虛無假 設被接受,虛無假設成立的可能性仍然將是很低的;相對的,若 虛無假設成立的概率很高時,則縱使虛無假設被拒絕,虛無假設 投稿日:2004 年 8 月 6 日,接受日:2004 年 10 月 1 日。 *作者為中央研究院經濟研究所研究員。

(2)

成立的可能性仍將會很高。換言之,根據假設檢定的結果以判斷 虛無假設正確與否,我們必須要對虛無假設成立與否的先驗概率 有所了解。 為了比較有系統的解釋這個問題的來源,我們在下一小節中 先介紹一些基本概念。

2.1 檢測機制的準確度和預測力的混淆

假設某種現象是否存在,可由一個檢測機制進行檢測,但是這個 檢測機制的結果不是百分之百精確,例如酒測、疾病檢測、景氣 循環檢測、甄試、乃至假設檢定等,則檢測機制的「準確度」一 般是以如下的條件概率來衡量1 P (檢測機制發現有該現象) = P (實際上是有該現象) 而檢測機制之結果的「預測力」則是以如下條件概率衡量: P (實際上是有該現象) = P (檢測機制發現有該現象) 很多人會將檢測機制的準確度和預測力的混淆。在我們得知檢測 機制的結果後,我們所要知道的應該是檢測機制的預測力,而不 是檢測機制的準確度,但是很多人會以為檢測機制的準確度便就 是檢測機制的預測力2 這種誤解有時候可能是很嚴重的錯誤,這是因為檢測機制的 預測力很受實際上有無該現象之可能性的影響。當實際上有該現 象的可能性很低時,縱使檢測機制的準確度很高,檢測機制的預 測力很可能還是很差的,也就是說,當一個準確度很高的檢測機 制發現有該現象時,實際上真是有該現象的可能性卻仍然可以是 很低的。 z 假設某種癌症檢測機制的準確度是 80%:若真有癌症時,則 該檢測機制有 80%的機會得出正確結論,現更進一步假設沒 1檢測機制的分析是生物統計研究者的最愛,他們對檢測機制的「準確度」和「預 測力」有很深入的討論,詳情可參見 Pepe (2003)。 2

對於這種現象,心裡學家稱之為「反向混淆」 (confusion of the inverse),Eddy (1982) 很早就指出這個問題,相關的研究可見 Plous (1993)。

(3)

有癌症時,則該檢測機制也有 80%的機會得出正確結論。此 外,假設癌症發生的可能性不高,只有 1%的可能性。若經由 該檢測機制已得到有癌症的結論,則我們必須強調真有癌症 的可能性並不是 80%,只有 3.9%。 z 假設一個金融危機預警機制的準確度是 90%,也就是說,若 金融真的發生危機時,則該預警機制有 90%的機會得出正確 結論,現更進一步假設若金融沒有危機時,則該預警機制也 有 90%的機會得出正確結論。此外,我們也假設金融發生危 機的可能性一般來說並不高,只有 2%的可能性。若現在該預 警機制已產生金融危機的信號,則我們必須強調金融真的發 生危機的可能性並不是 90%,只有 15.5%。 這兩個例子中「準確度」相當高 (80%或 90%) 的檢測機制之 所以會產生如此低下的「預測力」 (3.9%或 15.5%),關鍵在於實 際上有該現象的可能性很低 (1%或 2%)。

2.2 假設檢定的預測力

在進行統計學的假設檢定時,若所設定的虛無假設是否成立本身 是一個不確定的事件,則假設檢定便是前一節所述之檢測機制的 一個特例,因此,混淆假設檢定的準確度和預測力也會是一個問 題。 假設檢定架構下的虛無假設通常是假設任兩個變數之間沒有 關係,或是任兩組樣本之間沒有差異,或是某些參數等於零;也 就是說,虛無假設通常是假設某個關係、差異、或參數值是「不 顯著的」。若虛無假設不正確,即所要檢定的關係、差異、或參數 值實際上是「顯著」的時候,則一個準確的假設檢定應該會拒絕 虛無假設,因此假設檢定的「準確度」便可以如下的概率來衡量: P (接受虛無假設|虛無假設正確) = P (檢定為不顯著|實際不顯著) (1) 而這個概率便是假設檢定的「檢定力」 (power)。要完整描述假設 檢定準確度,我們還要看另一個概率: P (拒絕虛無假設|虛無假設不正確) = P (檢定為顯著|實際顯著) (2)

(4)

當 (1) 和 (2) 兩個概率都很高時,就表示假設檢定的準確度很 高。注意:1 減掉概率 (2) 便是所謂「型一誤差」的概率,而 1 減掉檢定力則是「型二誤差」的概率。一般對於作為假設檢定依 據之檢定統計量的推導和評估,都是建立在對應的「型一誤差」 和「型二誤差」的分析上,「型一誤差」的概率通常會被限制等於 一個給定的「容忍度」 (size)。 在定義了假設檢定的準確度後,我們便可重述前一小節的結 論 (對於這個結論的推導,請見附錄一):縱使一個假設檢定以 (1) 和 (2) 為定義的準確度非常高,不見得就表示這個假設檢定有很 高的預測力 (即接受虛無假設就一定保證虛無假設是正確的,或是 拒絕虛無假設就一定保證虛無假設是不正確的)。而當我們完成假 設檢定的手續後,我們有興趣的是假設檢定的預測力,而不是其 準確度。 更明確的說,不管假設檢定的準確度有多高,若虛無假設不 正確 (即實際顯著) 的可能性很低時,則縱使虛無假設被拒絕 (即 檢定為顯著),虛無假設不正確的可能性仍然將會很低;相對的, 若虛無假設正確 (即實際不顯著) 的可能性很低時,則縱使虛無假 設被接受 (即檢定為不顯著),虛無假設是正確的可能性仍然將會 很低。換言之,根據假設檢定的結果以判斷虛無假設正確與否, 我們必須要對虛無假設正確與否的「先驗概率」有所了解,代表 假設檢定準確度的「條件概率」 (1) 和 (2) 並不能直接回答我們 有興趣的問題。 我們要強調上述「準確度不同於預測力」之結論的前提是「虛 無假設正確與否是一隨機事件」,也就是說這樣的結論只有在貝氏 (Bayesian) 架構下才有意義。若虛無假設是否成立不是隨機事件而 是一確定事件,亦即虛無假設正確與否的先驗概率只能是 0 或 1, 則假設檢定的預測力也只能是 0 或 1,並沒有分析的價值,所以我 們便只好專注於對假設檢定之準確度的研究3。但不論貝氏架構是 3若虛無假設正確的先驗概率是 0,縱使虛無假設被接受,虛無假設正確的可能性仍 然是 0;相對的,若虛無假設正確的先驗概率是 1,縱使虛無假設被拒絕,虛無假設正 確的可能性仍然是 1。當假設檢定的預測力只能是 0 或 1 的時候,則分析假設檢定的預 測力便是毫無意義之事,我們當然就只能專注於假設檢定的準確度的分析 (即對型一和 型二誤差的分析),這也是絕大多數統計學或計量經濟學教科書所持的看法。

(5)

否適用4,經由上述的解釋,我們對虛無假設正確與否之先驗概率 的重要性應有所認識,換言之,是否要相信假設檢定的結果在很 大程度上取決於我們對該結果的先驗看法。在這裡我們所要強調 的是,所謂的先驗看法並不是指一廂情願沒有根據的主觀看法, 而必須是旁徵博引廣泛收集相關研究後的經驗之談。

3 型一誤差和型二誤差的不對稱處理

一般認為錯誤的拒絕虛無假設 (誤以為顯著、型一誤差) 要比錯誤 的接受虛無假設 (誤以為不顯著、型二誤差) 來得嚴重,因此在設 計假設檢定時,會將型一誤差的可能性固定在一個較低的水準 (此 水準即假設檢定的容忍度 size),而對型二誤差的可能性採取放任 的態度,只盼望 (而非強制) 它越小越好,也就是說,誤以為不顯 著 (型二誤差) 的可能性可高可低。

3.1 型二誤差真的比較不嚴重嗎?

要回答這個問題,必須先要了解虛無假設所設定之「不顯著」的 含意是正面的還是負面的:虛無假設所揭示的設定可能是一個具 有負面意義 (例如違反經濟理論、和預期不符) 的關係、差異或參 數值,也可能是一個具有正面意義 (例如支持經濟理論、符合預期) 的關係、差異或參數值。一般會認為實際上是負面卻誤以為是正 面的「粉飾太平」要比實際上是正面卻誤以為是負面的「危言聳 聽」來得嚴重,因為「危言聳聽」的危害最多只是虛驚一場,而 「粉飾太平」最終可導致無法挽救的惡夢成真: z 若虛無假設的設定具有負面意義,例如 t 檢定、F 檢定、單根 檢定,則型一誤差意味著實際上是負面卻誤以為是正面的「粉 飾太平」,因此要比型二誤差之實際上是正面卻誤以為是負面 的「危言聳聽」來得嚴重。 z 若虛無假設的設定具有正面意義,例如穩定性檢定、非特例 4一個可能適用貝氏架構的情況是,若虛無假設所揭示的關係、差異或參數值只適 用於某些特殊的子樣本,則對全體樣本而言假設檢定的預測力便會是一個介於 0 和 1 之 間的數值。

(6)

檢 定 (non-nested hypothesis testing) , 模 型 設 定 檢 定 (specification tests),則型二誤差是「粉飾太平」,要比型一誤 差的「危言聳聽」嚴重。 因此,一般假設檢定掌控型一誤差的做法顯然可適用於第一 種情況,而不適合第二種情況。在第二種情況時,我們應該考慮 機動調整容忍度以維持型一誤差和型二誤差之間的平衡。

3.2 有必要機動調整容忍度嗎?

我們認為在下列的兩種情況下,有必要機動調整容忍度以維持型 一誤差和型二誤差之間的平衡: z 若假設檢定的檢定力不高,則應調升其容忍度 (即縮短信賴區 間):若已知某個假設檢定的檢定力不高 (誤以為不顯著的型 二誤差可能性很高),即檢定的結果傾向於過度接受虛無假設 (檢定統計量傾向於小於臨界值,或檢定統計量的 p 值傾向於 大於給定容忍度,或信賴區間傾向於包括零),則有必要考慮 調升檢定的容忍度以使型一誤差和型二誤差能有所平衡。 z 若樣本數很大,則應調降假設檢定的容忍度 (即擴增信賴區 間):若假設檢定具一致性 (型一誤差和型二誤差都會隨著樣 本數的增加而逐漸趨近於 0),則檢定力會隨著樣本數的增加 變得越來越強,此時便有必要調低檢定的容忍度。換言之, 當型二誤差隨著樣本數的增加而逐漸變小時,則將型一誤差 一直維持在一個固定容忍度,會導致兩種誤差之間的不對稱 性越來越嚴重,我們當然應考慮調低對型一誤差的容忍度。 在這裡我們要特別指出,檢定力問題和樣本數問題常常就是 同一個問題:檢定力不足的一個重要原因便是樣本不足,此時若 不機動調升容忍度,縱使實際上關係是存在的,常會因資料的不 足而無法將之呈現出來。

(7)

3.3 隱匿多重假設檢定的後果

對於同一個虛無假設可能有多種不同的檢定方法5,研究者常會在 執行這多種檢定方法後,刻意挑選一種能夠拒絕虛無假設的檢定 方法,然後宣稱得到了顯著的結果,這種做法等同於以一個未知 的幅度調升假設檢定的容忍度,是一種任意擴大型一誤差可能性 的行為6。當然也有時候,研究者會刻意挑選一種不能夠拒絕虛無 假設的檢定方法,然後宣稱得到了不顯著的結果,這種做法等於 是任意擴大型二誤差的可能性,是一種降低假設檢定檢定力的行 為7

3.4 假設檢定韌性的重要性

大多數假設檢定 (尤其是大樣本假設檢定) 的檢定統計量在虛無 假設成立時的分配理論 (用以研究容忍度的分配理論),要比在虛 無假設不成立時的分配理論 (用以決定檢定力的分配理論) 來得 有韌性 (即不受分析之基本設定的影響),所以對型一誤差的掌控 要比對型二誤差來得精確,這也會加劇型一誤差和型二誤差之間 的失衡。 更嚴重的是,有些大樣本假設檢定在小樣本應用時,會有容忍度 扭曲 (sizedistortion) 的現象,也就是說,這類的檢定連型一誤差 都無法掌控。所以由這類檢定所得到的結果,不論是拒絕還是接 受虛無假設,在解釋時都必須非常保守小心。 5最常見的例子便是根據最大概似估計值所進行的沃氏 (Wald) 檢定、概似比檢定、 以及拉氏乘數檢定。至於「單根檢定」更是族繁不及備載。 6這個結論的證明是: 假設R 是檢定i i 的拒絕區間 (即根據樣本所算出的檢定統計量 i 落於R 便拒絕虛無i 假設),且滿足如下等式: P (R |虛無假設正確) = i α, i=1,2,... 這裡的α是一給定的容忍度。前述做法的型一誤差可能性其實是等於 P (UiRi|虛無假設正確) 而這個概率將大於α。 7這個結論可由如下的不等式看出: P (Ri|虛無假設不正確)≤ P (UiRi|虛無假設不正確) = P (型二誤差) = 1-檢定力。

(8)

4 對顯著結果的解釋

拒絕虛無假設得到顯著的結論時,不論這個結論是具有正面的意 涵還是負面的意涵,我們都必須有如下的了解: z 將型一誤差定在 5%的容忍度,雖可將誤以為顯著的可能性控 制在一個相當低的水準,但每二十件次的假設檢定當中還是 會有一次誤以為顯著的結論。新聞媒體乃至於學術期刊都傾 向於只報導顯著的結論 (不論是正面的還是負面的),而忽略 那些無法得到證實的研究。因此,對於證實某種顯著結論的 每一件新聞背後,我們應該追蹤是否有十九件無法得到實證 結果的相關研究。 z 不論關係或差異是多麼微弱,只要樣本夠大都可能變成顯著 的,也就是說,只要樣本夠大,幾乎所有的虛無假設都會被 拒絕,所以我們之前提到調降假設檢定容忍度的必要。這裡 我們更要指出,當樣本很大時,許多顯著的關係大都不具實 際重要性。換言之,統計顯著性不等同於實際重要性,樣本 數是關鍵。多個中小樣本數的研究,可能都會因樣本數不足 而無法得到顯著的結果,但若將樣本合併起來成為一個大樣 本,則很可能就得到顯著的結果。 1. 研究工資是否有性別歧視的統計分析中,縱使男女工 資平均差異是 20,000 元,但由於工資的變異數相當大 (樣本數不夠大),以致工資差異不顯著,我們實在很 難說 20,000 元的差異不重要。 2. 研究阿斯匹靈是否可預防心臟病的統計分析中,若不 是樣本數很大,則很可能無法證實8 在附錄二中我們將以另一個角度來看樣本數的問題。無論如 何,對於由假設檢定所得到的「顯著」結果,我們都應該抱著一 個「謙虛」的心態予以適當的解釋。 8在一個極為著名的阿斯匹靈研究中樣本數是 22,071。

(9)

附錄一:圖解假設檢定的準確度和預測力

在這個附錄裡,我們將以圖示的方式解釋第 2.2 小節的分析,下一 頁裡的圖一和圖二應有助於我們更清楚的了解假設檢定準確度和 預測力的之間的差異。 圖一和圖二中的方塊代表母體,方塊被一條垂直線和一條斜 線劃分成四塊: z 垂直線將方塊分為左右兩個長方形:左邊較寬的長方形表示 虛無假設H 是正確 (即實際不顯著) 的可能性,右邊較窄的0 長方形表示對立假設H1是正確 (亦即虛無假設錯誤、實際顯 著) 的可能性。當這兩個長方形的分界垂直線越靠右,則表示 虛無假設H 正確的可能性越大。 0 z 斜線將方塊分為左上和右下兩部份:左上較大的五邊形表示 假設檢定完成後接受虛無假設H (檢定不顯著) 的可能性,0 而右下較小的三角形表示假設檢定完成後拒絕虛無假設H 0 (檢定顯著) 的可能性, 在圖一中垂直線是實線,斜線是虛線。在垂直線左邊較寬的 長方形裡,我們可比較虛斜線之上下兩塊 (分別以「檢定的顯著水 準」和「型一誤差」標示) 的大小,這個比較讓我們了解當H 是0 正確 (即實際不顯著) 時,接受H (檢定不顯著) 和拒絕0 H (檢0 定顯著) 可能性的對比。在垂直線右邊較窄的長方形裡,我們也可 比較虛斜線之上下兩塊 (分別以「型一誤差」和「檢定力」標示) 的 大小,這個比較讓我們了解當H1是正確 (即實際顯著) 時,接受 和拒絕H 的對比。 0 在圖二中斜線是實線,而垂直線則是虛線。這裡所要強調的 是在決定接受H (檢定不顯著) 之後,0 H 是正確 (即實際不顯著) 0 和H 是不正確 (即實際顯著) 的對比,也就是在給定左上較大的0 五邊形裡,虛直線之左右兩塊 (分別以「接受H 的預測力」和「10 -接受H 的預測力」標示) 的對比。從圖二中也可看出在決定拒0 絕H (檢定顯著) 之後,0 H 是正確 (即實際不顯著) 和0 H 是不正0 確 (即實際顯著) 的對比,也就是在給定右下較小的三角形裡,虛 直線之左右兩塊 (分別以「拒絕H 的預測力」和「1-拒絕0 H 的0 預測力」標示) 的對比。

(10)

圖一強調的是左右兩個長方形內的分割和對比,呈現的是假 設檢定的準確度 (給定實際顯著或實際不顯著之後,檢定顯著和檢 定不顯著之可能性的對比)。而圖二強調的是左上五邊形右下三角 形內的分割和對比,呈現的是假設檢定的預測力 (給定檢定顯著或 檢定不顯著之後,實際顯著和實際不顯著之可能性的對比)。

(11)

由圖一中可清楚的看出,假設檢定的準確度很受虛斜線位置 的影響,但比較不受實直線位置的影響;而圖二所呈現之假設檢 定的預測力則很受實直線位置的影響,但比較不受虛斜線位置和 角度的影響。斜線上下的位置代表的是檢定顯著和檢定不顯著之 可能性的對比,垂直線左右的位置代表的是實際顯著和實際不顯 著之可能性的對比。圖一和圖二的這種差別,便是造成假設檢定 準確度和預測力不一致的主要原因。換言之,假設檢定的準確度 很受檢定顯著和檢定不顯著之可能性對比的影響,而預測力則很 受實際顯著和實際不顯著之可能性對比的影響。

附錄二:樣本數的另一個問題-賭徒謬誤

所謂的「賭徒謬誤」 (gambler's fallacy),Tversky and Kahneman (1982) 稱之為「小數法則的期盼」 (the belief in the law of small numbers),乃是指「認為任何小樣本對母體都具有代表性」的錯誤 想法。

(12)

樣的,一個賭徒在連輸幾局後,通常都會一廂情願的認為應該是 時來運轉的時候了,理由是其個人所遭遇之輸贏的樣本概率應該 趨近於母體概率,所以在連輸幾局之後的贏面應該比較大。然而 事實上不論之前輸了幾局,之後任一新局的輸贏機會還都是一樣 的。 賭徒謬誤和樣本平均數隨著樣本數增加而收斂到母體平均數 的「速度」有關,依照中央極限定理,樣本平均數是以樣本數開 根號的速度收斂到母體平均數,換言之,樣本平均數是以一個比 較「慢」的非線性速度收斂到母體平均數,但一般人對樣本數的 直覺都是線性的,也就是說,一般人會錯覺樣本平均數趨近母體 平均數的速度和樣本數成正比。 當我們根據假設檢定或估計的大樣本理論進行實證研究時, 是否曾在樣本數的問題上犯了「賭徒謬誤」?

參考文獻

Eddy, D. M., (1982), “Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities,” Judgment under Uncertainty: Heuristics and Biases, D. Kahneman , P. Slovic, and A. Tversky (eds.), Cambridge, England: Cambridge University Press.

Pepe, M. S., (2003), The Statistical Evaluation of Medical Tests for Classification and Prediction, Oxford, England : Oxford University Press.

Plous, S., (1993), The Psychology of Judgment and Decision Making, New York: McGraw Hill.

Tversky, A. and D. Kahneman, (1982), “Judgment under Uncertainty: Heuristics and Biases,” Judgment under Uncertainty: Heuristics and Biases, Kahneman, P. Slovic, and A. Tversky (eds.), Cambridge, England: Cambridge University Press.

(13)

Some Misconceptions in Statistical Hypothesis Testing

Ching-Fan Chung

Insitute of Economics, Academia Sinica, Taiwan

In this short paper we summarize and elaborate on a few well-known misconceptions that often occur when people conduct statistical hypothesis testing. For example, when the truthfulness of the null hypothesis is a random event and the formal hypothesis testing procedure cannot reject the null, then the chance that the null is really true may be substantially lower than what most people would expect. Such a ``distortion'' has to do with the structure of type I error and type II error we use as a basis in designing the testing procedure. We also discuss the implications of the asymmetric treatment of the two types of errors, the effects of sample size on testing results, etc., that are often overlooked by students and researchers when reporting their empirical results.

Keywords: hypothesis testing, two types of errors, power JEL classification: C120

參考文獻

相關文件

Too good security is trumping deployment Practical security isn’ t glamorous... USENIX Security

了⼀一個方案,用以尋找滿足 Calabi 方程的空 間,這些空間現在通稱為 Calabi-Yau 空間。.

we use data (random sample) to test if the data provides significant evidence to reject the null hypothesis.. If X > c reject

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette & Turner, 1999?. Total Mass Density

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

experiment may be said to exist only in order to give the facts a chance of disproving the

(Another example of close harmony is the four-bar unaccompanied vocal introduction to “Paperback Writer”, a somewhat later Beatles song.) Overall, Lennon’s and McCartney’s