• 沒有找到結果。

條件推論在統計推論上的影響

N/A
N/A
Protected

Academic year: 2021

Share "條件推論在統計推論上的影響"

Copied!
40
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 交 通 大 學

統計學研究所

碩 士 論 文

條件推論在統計推論上的影響

The Effect of Conditional Inference

on Statistical Inference

研 究 生 :賴映伶

指導教授 :洪慧念 博士

(2)

條件推論在統計推論上的影響

The Effect of Conditional Inference

On Statistical Inference

研 究 生:賴映伶

Student: Ying-Ling Lai

指導教授:洪慧念

Advisor: Hui-Nien Hung

國 立 交 通 大 學

統計學研究所

碩 士 論 文

A Thesis

Submitted to Institute of Statistics

College of Science

National Chiao Tung University

in Partial Fulfillment of the Requirements

for the Degree of

Master

in

Statistics

June 2007

Hsinchu, Taiwan, Republic of China

中華民國九十六年六月

(3)

條件推論在統計推論上的影響

研究生:賴映伶 指導教授:洪慧念博士

國立交通大學統計學研究所

摘要

條件推論在統計這門領域中已具有相當久的歷史,然而卻沒有被

廣泛共識,同時,對於條件推論的使用時機與方式,統計學家們也有

一些爭議的觀點。爭議的觀點之一在於給定條件下後的統計推論常常

出現與原來不同的結果,究竟何種較合理?這篇文章的主題是更進一

步探討何時該用條件推論?如何使用推論較為適合?以及研究條件

推論與統計上的充分原則之關係。

(4)

The Effect of Conditional Inference

on Statistical Inference

Student:Ying-Ling Lai Advisor:Dr.Hui-Nien Hung

Institude of Statistics

National Chiao Tung University

Abstract

Conditional inference already has a history in statistical theory for a long time,but doesn’t has a common view. The statisticians also have some standpoints of controversies for using opportune moment and way on conditional inference. One of the standpoint of controversy is conditional inference usually appear with originally different result. Actually what more reasonable ? The topic of this article is a further study when should use conditional inference? How use inference fitter?And study conditional inference and sufficient principle’relation.

(5)

誌謝

首先我要誠摯的感謝我的指導教授—洪慧念老師,謝謝老師這兩

年來一直很有耐心的指導,無論是在課業或是生活上都給予我很大的

支持與鼓勵。另外也要感謝口試委員陳鄰安老師、徐南蓉老師及黃信

誠老師的細心教導與建議,使這篇論文能更加完整。

這篇論文能順利完成除了老師的協助,也要感謝米米、銘銘和雪

芳,謝謝你們在我碰到問題瓶頸時,總是會在我身邊幫助我,解決我

一切的問題,謝謝你們。還有統研所的每位同學,因為有你們,這兩

年才會過得如此精彩!

最後要感謝我的家人和自展,無時無刻陪伴在我的身旁,讓我可

以開心的完成學位。

謹將這篇文章和大家分享,由衷感謝曾經幫助過我的人。

賴映伶 謹誌于

國立交通大學統計學研究所

(6)

目錄

第一章 緒論...1 第二章 文獻探討...3 第三章 推估均勻分配期望值之條件推論...8 3.1 在給定輔助統計量下,覆蓋參數θ的機率大小...8 3.2 平均長度長短...12 3.3 檢定力大小...13 3.4 結論...16 第四章 輔助統計量與費雪訊息...18 4.1 費雪訊息與輔助統計量...18 4.2 充分原則與條件原則使用之次序...20 4.2.1 X i i d. . .~ N( ,θ θ 比較兩種不同角度的統計推論...20 2) 4.2.2 給定輔助統計量之下的費雪訊息...23 4.2.3 X i i d~. . N( ,1)θ 比較兩種不同角度的統計推論...28 4.2.4 x y, ~i i d. . BN(0, 0,1,1, )ρ 比較兩種不同角度的統計推論 ...29 第五章 結論與未來展望...31 參考文獻...33

(7)

第一章 緒論

在許多日常生活中的統計問題上常發生所謂的「條件推論」,例如於一場足 球比賽中,雙方選手在爭奪發球權時,通常利用投擲一枚銅板決定,若銅板出現 正面時則由A 方獲得發球權;若出現反面則反之,判斷若 A 方(或 B 方)獲得 發球權時,比賽結果會如何。類似「若…,則…」的問題,在統計學上將其稱為 「條件推論」(Conditional Inference),亦即評估於某種特定條件下,進行統計分 析及探討,進而獲得需要的資訊。條件推論在統計這門領域中已具有相當久的歷 史,然而卻沒有被廣泛共識,同時,對於條件推論的使用時機與方式,統計學家 們也有一些爭議的觀點(D.A.S.Fraser , 2004)。 受人爭議的觀點之一為在給定條件下分析問題與不給定條件下分析相同問 題,可能會出現有不同的結果。此外,即使採用給定條件分析問題,在給定了相 異的條件分配後的推論,亦有可能發生不同的結果。我們可以先以維基百科網站 中一個簡單有趣的例子來加以說明之: 美國有一所知名的高校在新學期開始招生時,其中有兩個學院—法學院及商 學院,人們懷疑這兩個學院是否有性別歧視而引發民眾熱烈討論。因而有學者針 對此問題作出如下統計: 表1:法學院錄取比例表

表2:商學院錄取比例表 性別 錄取 拒收 總數 錄取比例 男生 201 50 251 80.1% 女生 92 9 101 91.1% 合計 293 59 352 性別 錄取 拒收 總數 錄取比例 男生 8 45 53 15.1% 女生 51 101 152 33.6% 合計 59 146 205 很明顯地,根據表1 及表 2 的數據來看,女生不論在法學院或商學院中均有

(8)

更改: 表3:兩學院錄取數據彙總表 性別 錄取 拒收 總數 錄取比例 男生 209 95 304 68.8% 女生 143 110 253 56.5% 合計 352 205 557 在表3 彙總資料中,女生的錄取比率( 56.5 % )竟較男生錄取比率( 68.8 % ) 為低。造成此種結果主要是因為在所有的學生中,法學院的男生人數佔了整體學 生人數相當高的比例,才會有這樣的影響。這個例子就是著名的 Simpson’s Paradox。由上述案例中可以明顯發現到,在有無給定「學院」的條件情況下, 對整體結果將會有不同的影響結論。至於這兩種看法哪一種才是正確的,在不同 的模型假設下,有不同的答案,我們會在後面說明。 有鑑於此,本文的目的在於希望更進一步的去探討,何時該用條件推論?如 何使用推論?以及條件推論與統計上的充分原則之關係。

(9)

第二章 文獻探討

在過往的文獻中,已有不少統計學者針對隨機變數的分配,探討在給定條件 下 之 統 計 推 論 , (John D.Kalbfleisch(1975) 、 Barnard,G.A.(1976) 、 D.V.Hinkley(1977)、V.P.Godambe(1980)、N.Reid(1995)、Walter Kramer and Gerd Gigerenzer(2005))同時也提出了諸多爭議點。如其中 Cox(1958)利用一個例子加以 說明之,其詳述如下所示: 例子:2.1 假設我們對一個平均數為θ(未知參數)的常態分配母體,隨機抽取一變數 x ,其中 x 有1 2的機率服從 2 1 ( , ) N θ σ ,1 2的機率服從 2 2 ( , ) N θ σ ,而σ1及σ2均為 已知且σ1>>σ2,同時我們也知道x 是從 2 1 ( , ) N θ σ 或 2 2 ( , ) N θ σ 中的哪一個出來。 亦即,我們可以看到( , )X Y ,其中P Y( = =1) P Y( =2) 0.5= ,且給定Y =1之下X 服 從N( ,θ σ12),給定Y =2之下 X 服從 N( ,θ σ22)。若現在希望進行一假設檢定 0: 0, 1: H θ = H θ > ,在顯著水準為 0.05 之下,我們可以考慮兩種不同情況下0 的檢定,用以判斷其差異性。 第一種檢定可稱為條件最有力(Power)之檢定,也就是在已知特定的條件(Y 之值)下進行的檢定。即可先行算出條件檢定的拒絕域:

{

}

1: ( , ) | ( 1 1.64 ) (1 2 1.64 ) C x y y= 且x> σ ∪ y= 且x> σ2 (2.1) 第 二 種 檢 定 為 考 慮 整 個 樣 本 空 間 , 在 同 樣 顯 著 水 準 為 0.05 下,利用 Neyman-Pearson Lemma 算出的拒絕域為;

{

}

2: ( , ) | ( 1 1.28 ) (1 2 5 ) C x y y= 且x> σ ∪ y= 且x> σ2 (2.2) 從拒絕域C2的結果表示,P x( >1.28 |σ1 Y = =1) 0.1,P x( >5σ2|Y = ≒ ,2) 0 當觀測值x 來自於第二種樣本空間時,當θ= 幾乎不會犯錯;然而當 x 來自於第0 一種樣本空間時,若H0為真(即 θ= 0)卻拒絕H0的犯錯機率卻高達10% 。

(10)

若在已知要進行N( ,θ σ12)或N( ,θ σ22)確定分配下的一次試驗,採用給定條 件的檢定是較好的 ;但若重複進行多次試驗,考慮整個樣本空間的檢定,由 Neyman-Pearson Lemma 可得知,在具有最大檢定力的基本下,沒有給定條件下 的檢定 是更好的。 1 C 2 C 因此另有學者 D.A.S.Fraser(2004)針對此一疑點,將原有參數進行修改,令 1 100 2 σ = σ 且σ20,並從信賴區間的形式來看此問題。在第一種給定條件下的 信賴區間與第二種沒有給定條件的第種信賴區間分別為:

{

}

1: ( , ) | ( 1 196 ,0 196 )) (0 2 ( 1.96 , 1.96 ) L x y y= 且θ∈ −(x σ x+ σ ∪ y= 且θ∈ x− σ0 x+ σ0 (2.3)

{

}

2: ( , ) | ( 1 164 ,0 164 )) (0 2 5 , 5 )) L x y y= 且θ∈ −(x σ x+ σ ∪ y= 且θ∈ −(x σ0 x+ σ0 (2.4) 從 L1L2 的 結 果 可 以 得 出 , 在 給 定 條 件 下 的 信 賴 區 間 平 均 長 度 為 0 197.96σ ,沒有給定條件下的信賴區間平均長度為169σ0。很明顯地,沒有給定 條件的區間長度較短,且也較具檢定力。

對於使用條件推論的正當性,M.Ghosh,N.Reid 及 D.A.S. Fraser(2005)從另 費雪訊息(Fisher information)的角度來看看問題,他們認為較適合的費雪訊息 應為IT( | )θ U 而非IT( )θ ,其中:θ為分配的參數,( , 為最小充分統計量 (minimal sufficient),且U 亦為輔助統計量,則 ) U T 2 2 log ( | ) ( | ) [ | ] T L T U I U E θ U θ

θ

θ

∂ = − ∂ 即為在給定條件U 下的費雪訊息,其中T 在給定條件 U 下的概氏函數(likelihood function)。

( | )

L T U

θ 換言之,以例子 2.1 來看,計算條件費雪訊息I( |θ Y =1)及I( |θ Y =0)較為 合理,而非計算費雪訊息I( )θ 。此一觀點也將於 4.1 小節中利用一個例子進行更 進一步的說明。

(11)

而 Welch(1939)亦針對是否給予條件的情況下,評估其之後推論優劣提出了 另一範例(這個例子我們會在第三章更進一步的分析): 例子2.2: 現考慮兩個獨立的隨機變數,他們的分佈是從 1 2 θ − 到 1 2 θ + 的 Uniform 分 配,其表示式如下所示: 1 2 1 1 1 1 ( , ) ~ ( , ) ( , ) 2 2 2 2 y y U θ− θ+ ×U θ − θ + (2.5) 令 1 2 1 2 1 , 2 2 2 y y y y z = + = y z = − (2.6) 則z2的機率分配為: 2 2 1 1 ( ) 2(1 2 ) , 2 2 p z = − z − <z2 < (2.7) 同時,在給定z2下,z1的分配為 1 2 1 1 1 ( , ) 2 2 1 ( | ) ( ) 1 R R p z z I z R θ− − θ+ − = − ,where R=2 z2 (2.8) 現比較不同條件下之檢定力大小,用以判斷相異條件下之優劣。如圖2.1 所 示,其中圖(i)與圖(ii)具有相同陰影部分為1− 的面積但相異形狀(菱形區塊與兩α 小正方形區塊)的情況下,其中陰影部分即代表當取樣在此範圍內,我們相信 0 θ θ= 為真,其面積為1− ,而陰影形狀不同則表示不同的檢定或信賴區間,進α 而Welch 比較了其檢定下的檢定力的大小。 (i) (ii) 圖2.1 0 0 1 1 ( , ) 2 2 θ + θ + ( 0 1, 0 1) 2 2 θ + θ + 0 0 ( , )θ θ ( , )θ θ0 0 y2 y 2 1 y 1 y

(12)

而D.A.S.Fraser(2004)除了繼續探討了 Welch(1939)提出的兩種條件區間外, 另再給定了第三種條件,即圖2.2 中的陰影部份的兩個直角三角形,希冀是否能 找出更佳區間,並得出三種條件下的統計推論。(文中提到圖(ii)為具有最大檢定 力的區間,圖(iii)為最短區間並非正確,於第三章會有更深入探討。) (iii) 圖2.2 三種情況覆蓋參數θ 的區間範圍相對應圖(i)(ii)(iii)分別為: (i) (1 )(1 ) 2 R y α ⎧ ± − − ⎫ ⎨ ⎭ ⎩ ⎬ .5 (2.9) (ii) 1 0 if − >α 1 1 2 2 1 1 (1 ) 1 (1 ) 2 2 2 R y if R R y if R α (1 ) α α ⎧ ±> − ⎪ ⎪ ⎨ + − − − − ⎪ ⎪ ± ≤ ⎪ ⎩ − .5 (2.10) 1 0 if − <α 1 1 (1 ) 2 2 1 1 1 1 1 2 (1 ) 2 2 2 2 R y if R R y if R other α α α ⎧ ±> − − ⎪ ⎪ ⎪ ⎧− + − ⎫ − − ⎪ ±+ < ≤ − ⎨ ⎨ ⎬ ⎪ ⎭ ⎪ ⎩ ⎪Φ ⎪ ⎪⎩ α (2.11) 1 y 2 y 0 0 ( , )θ θ 0 0 1 1 ( , ) 2 2 θ + θ +

(13)

(iii) 1 (1 1 ) 2 0 (1 1 ) R y if R if R α α − ⎧ ± > − ⎪ ⎨ ⎪ ≤ − ⎩ − (2.12) 由上述的文獻當中,不難發現在給定不同條件下判斷不同情況之優劣均有諸 多爭議之處。有鑑於此,本研究將於第三章更深入的利用不同的觀點,如:覆蓋 參數θ 的合理機率、區間平均長度、最大檢定力等,探討比較例子 2.2 所提出的 三種區間優劣。此外,本研究亦將比較不同分配下條件推論與一般統計非條件推 論之差異。

(14)

第三章 推估均勻分配期望值之條件推論

此章節主要在於延伸第二章統計學者 D.A.S.Fraser(2004)所比較的三種區 間,圖(i)表示在給定 R 之下的條件檢定,圖(ii)為一種類似不偏檢定(Unbiased test) 的檢定 (Unbiased test 不存在),圖(iii)為信賴區間長度較短。

(i) (ii) (iii)

圖3.1 利用「在給定輔助統計量下,覆蓋參數 θ 的合理機率」,「區間平均長度長 短」,以及「檢定力大小」,三種觀點來分別比較三種區間的優劣。 3.1 在給定輔助統計量下,覆蓋參數θ的機率大小 在這一小節我們要計算在給定輔助統計量的情形下,三種不同信賴區間分別 覆蓋到參數 θ 的機率,進而畫出輔助統計量R=2 z2 與覆蓋機率P(θ∈C I R). | 間 的關係圖來做為比較的準則。 (i) 1 1 1 1 ( . | ) ( (1 ) (1 ) 2 2 R R P

θ

C I R =P y− −

α

− < < + −

θ

y

α

− ) 1 1 1 ( (1 ) (1 ) 2 2 ) R R P θ α − y θ α − = − − < < + − 1 1 (1 ) (1 ) 1 2 2 1 1 1 (1 ) (1 ) 2 2

1

|

1

1

1

R R R R

z

dz

R

R

θ α θ α θ α θ α

α

− − + − + − − − − − − −

=

=

= −

0 0 1 1 ( , ) 2 2 θ + θ + ( 0 1, 0 1) 2 2 θ + θ + 1 y 2 y 1 y 2 y 1 y 2 y 0 0 ( , )θ θ ( , )θ θ0 0 0 0 1 1 ( , ) 2 2 θ + θ + 0 0 ( , )θ θ

(15)

(ii) 1 0.5 if − >α 1 2 1 1 (1 ) ( , ) 2 ( . | ) 1 (1 ) g ( , ) 2 f R if R P C I R R if R α α θ α α ⎧ − − > ⎪⎪ ∈ = ⎨ − − ⎪ ⎪⎩ 其中 1 1 1 1 1 ( , ) ( ) ( 2 2 2 2 ) R R R f R α =P y− − < < +θ y − =P θ − − < < +y θ −R 1 1 1 2 2 1 1 1 2 2

1

|

1

1

1

R R R R

z

dz

R

R

θ θ θ θ − − + + − − − −

=

=

=

1 1 1 (1 ) 1 1 (1 ( , ) ( ) 2 2 2 2 R R g Rα =P y− + + − −α < < +θ y + − − −α) 1 1 (1 ) 1 1 (1 ( ) 2 2 2 2 R R Pθ + − −α y θ + − −α) = − + < < + − 1 1 (1 ) 2 2 1 1 1 (1 ) 2 2

1 (1

)

1

2

1

2

1

1

R R

R

dz

R

R

α θ α θ

α

+ − − + − + − − − +

− −

+ −

=

=

1 0 if − <α .5 2 2 2 1 ( , ) (1 ) 2 1 1 ( . | ) ( , ) 1 2 (1 ) 2 2 0 f R if R P C I R g R if R other α α α α θ α ⎧ > − ⎪ ⎪ ⎪ ⎪ ∈ = − < ≤ − ⎪ ⎪ ⎪ ⎪⎩ 其中 2 1 1 1 1 ( , ) ( ) ( ) 2 2 2 2 R R R R f Rα =P y− − < < +θ y − =P θ − − < < +y θ − =1

(16)

2 1 1 1 1 ( , ) ( ( ) ( ) 2 2 2 2 1 1 1 1 ( ) 2 2 2 2 R R g R P y y R R P y α α α θ α α θ θ − + − − + − = − + < < + + − + − − + − = − − < < + + 1 1 2 2 1 1 1 2 2

1

1

2

1

2

1

1

R R

R

dz

R

R

α θ α θ

α

− + − + + − + − − −

− +

+

=

=

(iii) 3 3 ( , ) 1 1 ( . | ) 0 1 1 f R if R P C I R if R α α θ α ⎧ > − − ⎪ ∈ = ⎨ < − − ⎪⎩ 其中 3 1 1 1 1 ( , ) ( ) ( ) 2 2 2 2 R R R f R α =P y− − < < +θ y − =P θ − − < < +y θ −R 1 1 1 2 2 1 1 1 2 2

1

|

1

1

1

R R R R

z

dz

R

R

θ θ θ θ − − + + − − − −

=

=

=

由上述推導的式子中,可以試著將三種情況計算出的結果,選擇1− =α 0.28 及1− =α 0.68,並利用R 2.3.1 此套統計軟體畫出 R 與P(θ∈C I R). | 的關係圖。

(17)

(i)當1− =α 0.28 (ii)當1− =α 0.68 < 1 P 3 P 2 P 圖3.2 R與P(θ∈C. | )I R 的關係圖 由圖3.2 中不難發現到,第一種區間無論 R 值為何,覆蓋參數 θ 的機率皆為 1− ,而第二種區間覆蓋參數的機率在某段範圍裡皆為 0 或 1,其餘則落在 0~1α 之間,最後,第三種區間覆蓋參數的機率只有0 和 1 兩種可能。由此觀點來比較 此三種區間何者較佳,可以先利用下面一段的敘述說明之: 倘若1− =α 0.68,今我們觀察到( , ) (1,1.1)y y1 2 = ,則我們知道θ應若在(0.6,1.5) 內,但從第二種區間及第三種區間得到的信賴區間為Φ,則若我們告訴他人說Φ 為65%的信賴區間,會令人難以相信;而今我們觀察到( , ) (1,1.8)y y1 2 = ,θ應若 在(1.3,1.5)內,但第二種區間及第三種區間的信賴區間為 100%的信賴區間,若我 們告訴他人說100%的信賴區間為 65%的信賴區間,同樣也會令人難以置信。這 樣的區間,雖然仍是信心水準在68%的信賴區間,但在實際上卻不實用,故不被 一般人普遍選擇使用。換句話說,第一種的信賴區間無論 R 值為何,覆蓋參數 θ的機率皆為信心水準1− ,比起第二、三種的信賴區間,會較被喜歡與接受。 α

(18)

3.2 平均長度長短 此小節將試著從另一觀點,將三種情況的平均長度計算出來並畫出1− 與α 平均長度的關係圖。也就是將平均長度長短當作選擇區間的準則,進而比較三種 區間優劣,其式子詳述如下: 平均長度=

每一點R 所對應的長度×此點的機率分配。 (i) 1 1 1 0 0 2 ( ) (1 )(1 ) 2(1 ) (1 3 R L =

A⋅ f R r dR= =

−α −R ⋅ −R dR= −α) (ii) 1 1 1 1 2 1 1 0 1 2 1 2 2 3 2 1 ( ) ( 1 2 ) 2(1 ) (1 ) 2(1 ) 2 1 2 1 0.5 2 R f R r dR R R dR R R dR L α α α α α α − − − − − − = = − + + ⋅ − + − ⋅ − − = − =

A

A < 1 (1 ) 1 2 0 0 3 1 (1 ) ( ) (1 2 )2(1 ) 2 1 (1 ) 1 2 1 (1 ) 2[ ] 1 0.5 3 3 2 R f R r dR R R dR α α α α α − − ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ − −= = + − ⎪ ⎪ − − ⎪ ⎪ = + − − − > ⎪⎩

(iii) 1 1 1 1 3 0 R( ) 1 1 (1 ) 2(1 ) 0 0 2(1 ) L f R r dR R R dR α R dR α − − − − =

A = =

− ⋅ − +

⋅ − 3 2 1 ( 2[ (1 1 ) (1 1 ) ] 3 3 α α α − − = − − − + − − − 1 1 )

(19)

1 P 3 P 2 P 圖3.3 1− 與平均長度關係圖α 從圖3.3 中可以發現無論1− 值為何,第三種信賴區間即 所對應的平均長α 度皆為最短。換句話說,雖然從覆蓋參數θ 的合理機率來選擇這三種區間,第一 種信賴區間較佳,然而若從平均長度的角度去判別,則會變更選擇成第三種的區 間。不過從3.2 節可知,第三種區間覆蓋參數的機率只有 0 和 1 兩種可能,實用 性不高。 3 P 3.3 檢定力大小 此小節將採用最後一種觀點—檢定力大小,來比較此三種區間之優劣是否會 再次有所改變。以下先定義該節所採用到之參數與函數定義,如下所示: 檢定力(power at θ):若 θ 屬於對立假設,在 θ 點上做正確決策的機率為1−β θ( ) 其中β θ 為型二誤差(type Ⅱ error) ( )

(20)

在此我們利用延著對角線移動陰影區塊Δ= −θ θ0的距離與θ的關係,計算 新的淺灰色區塊落在正方形範圍裡的面積即為β,如圖3.4 所示,進而比較其檢 定力大小。 圖3.4 1 y 2 y Δ 其三種區間的檢定力函數之計算過程如下所示: (i) 2 2 2 1 1 0 4(1 ) 1 1 1 0 ( ) 2 2 1 (1 ) 1 1 2 1 1 1 1 ( ) 2 ( ) ( ) 2 2 1 (1 ) 2 2 2 2 0 α α α α α β α α α α − Δ = − Δ − − − ≤ Δ ≤ − − − = Δ + − Δ + − ≤ Δ ≤ + + − − 1 1 ( ) 2 2 α ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ − Δ ≥ + ⎪⎩ (ii) 1 0.5 if − >α 2 2 1 0 1 1 1 1 1 2 (1 ) 0 2 2 2 2 1 1 1 1 1 1 ( ) 2 1 2 2 2 2 2 2 1 0 1 2 α α α α β α α α − Δ = − − − − Δ − − ≤ Δ ≤ − = + − Δ + Δ − ≤ Δ ≤ − − Δ ≥ − − − 1 2 α ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩

(21)

1 0.5 if − <α 2 1 0 1 1 1 2 0 2 2 1 0 2 α α α β α α ⎧ ⎪ − Δ = ⎪ − − ⎪ = − − Δ ≤ Δ ≤ ⎪ ⎪ Δ ≥ ⎪ ⎩ (iii) 3 1 0 1 (2 1 ) 0 1 0 1 α β α α α − Δ ⎧ ⎪ = − − Δ − − Δ ≤ Δ < − ⎪ Δ ≥ ⎩ α = 由上述式子推論中,可畫出移動距離Δ 與 β 的關係圖,如圖 3.5 所示: (i)當1− =α 0.25 (ii)當1− =α 0.75 (a) (b) 1 P 3 P 2 P 圖3.5 移動距離Δ與β的關係圖 在圖3.5 中可以發現到: 若0 1≤ − ≤α 0.5 1 (0, 2 1 2 ) , 2 1 (2 1 2 , 1 ) 2 α α α α α ⎧ − Δ ∈ − − ⎪⎪ ⎨ − ⎪Δ∈ − − − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。

(22)

若0.5 1 49 81 α ≤ − ≤ 1 (1 ) (0, 2 2 2 (1 )) , 2 1 (1 ) ( 2 2 2 (1 ), 1 ) 2 α α α α αΔ ∈ − + − − + ⎪⎪ ⎨ − − ⎪Δ∈ − + + − − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。 若49 1 81 < − < 1α (最常用) 1 1 (0, ) , 4 1 1 ( , 1 ) 4 α α α+ Δ ∈ ⎪⎪ ⎨ + − ⎪Δ∈ − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。 3.4 結論 在上述小節中可發現在不同條件下採用不同觀點所得出的結果均會有所差 異,而無固定的最佳解。將其三種觀點比較之結果整理成如表4。 由該表可發現,若從不同的觀點來選擇相異區間將造成不一樣的結果,因此 我們應該瞭解的是並沒有那種區間最好,而是依照使用者的需求去選擇一個較佳 的區間。

(23)

表4 三種觀點比較之結果 區間 觀點 1 0.5 1 1 (1 ) 2 2 1 1 1 1 1 2 (1 ) 2 2 2 2 if R y if R R y if R other α α α α α − < ⎧ − − ± > − ⎪ ⎪ ⎪ − + ±+ < ≤ − ⎨ ⎨ ⎬ ⎪ ⎪ ⎭ ⎪ ⎩ ⎪Φ ⎪ 信賴 區間 (1 )(1 ) 2 R y α ⎧ ± − − ⎫ ⎨ ⎬ ⎭ ⎩ 1 0.5 1 1 2 2 1 1 (1 ) 1 (1 ) 2 2 2 if R y if R R y if R (1 ) α α α α − > ⎧ − − ± > ⎪ ⎪ ⎨ + − − − − ⎪ ⎪ ⎪ ± ≤ ⎪ − ⎩ ⎩ 1 (1 1 ) 2 0 (1 1 ) R y if R if R α α − ⎧ ± > − ⎪ ⎨ ⎪ ≤ − ⎩ − 覆 蓋 參 數機率 皆為1-α 在部分區間內為0 或 1,其餘介於 0~1 之間。 0 或 1 區 間 平 均長度 最長 較短 最短 0 1≤ − ≤α 0.5 1 (0, 2 1 2 ) , 2 1 (2 1 2 , 1 ) 2 α α α α α ⎧ Δ ∈ − − ⎪⎪ ⎨ − ⎪Δ∈ − − − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。 1 2 1 2 2 α α − ≥ − − Δ 49 0.5 1 81 α ≤ − ≤ 1 (1 ) (0, 2 2 2 (1 )) , 2 1 (1 ) ( 2 2 2 (1 ), 1 ) 2 α α α α αΔ ∈ − + − − + ⎪⎪ ⎨ − − ⎪Δ ∈ − + + − − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。 49 1 81< − < 1α (最常用) 檢 定 力 大小 最小 1 1 (0, ) , 4 1 1 ( , 1 ) 4 α α α ⎧ + − Δ ∈ ⎪⎪ ⎨ + − ⎪Δ∈ − ⎪⎩ 第三種信賴區間最具檢定力。 ,第二種信賴區間最具檢定力。

(24)

第四章 輔助統計量與費雪訊息

費雪訊息(fisher information I(θ))為 R.A.Fisher 1920 所提出,他的定義為

2 2 log ( | ) ( ) [ f X ] I Eθ θ θ θ ∂ = − ∂ ,其中 f X( | )

θ

為當θ 給定時,X 的機率密度函數, 費雪訊息的值愈大代表我們擁有較多參數的訊息,亦即我們可以對參數作更精確 的估計。 在4.1 小節,我們將試著去研究一般我們常用的費雪訊息在給定輔助統計量 與不給定輔助統計量的差異;而在4.2 小節中,我們也將探討在給定不同的輔助 統計量下的統計推論會不會有差異。 4.1 費雪訊息與輔助統計量

M.Ghosh,N.Reid and D.A.S. Fraser(2005)指出,較適合的費雪訊息(Fisher information)應為 ( | )IT θ U 而非IT( )θ 。我們利用第二章 <例子 2.1> Cox(1958)所 提出的例子來說明這個論點。 <例子 4.1-1> 假設我們的實驗為投擲一枚公正的銅板,若出現正面(H),則進一步進行 其母體平均數為θ,母體變異數為 1 的常態分配,N( ,1)θ ,試驗;反之,若出現 反面(T),則進一步進行其母體平均數為 θ,母體變異數為 10000 的常態分配, ( ,10000) N θ ,試驗。在此實驗下我們打算比較下面兩種情況的Fisher information: 在計算費雪訊息前,先令隨機變數 1 0 Y = ⎨⎧ ⎩ 投擲正面 投擲反面 (i) 在給定 Y 的情形下:若 Y=1,費雪訊息計算過程如下: ~ ( ,1) X N θ 2 ( ) 2 1 ( , ) 2 X L X e θ

θ

π

− − =

(25)

2 1 ( ln ( , ) ln(2 ) 2 2 X Lθ X = − π − −θ) 2 2 ln ( ) 1 L θ θ ∂ = − ∂ 2 2 ln ( ) ( | 1) ( L ) 1 I θ Y E θ θ ∂ = = − = ∂ (4.1) 若Y=0,費雪訊息計算過程如下: ~ ( ,10000) X N

θ

2 ( ) 2 10000 1 ( , ) 2 10000 X L X e θ

θ

π

− − ⋅ = ⋅ 2 1 ( ln ( , ) ln(2 ) 2 2 10000 X Lθ X = − π − −θ) ⋅ 2 2 ln ( ) 1 10000 Lθ θ ∂ = − ∂ 2 2 ln ( ) 1 ( | 0) ( ) 10000 L I θ Y E θ θ ∂ = = − = ∂ (4.2) (ii) 不給定正反面情況下的費雪訊息: 2 2 ( ) ( ) 1 20000 2 ( 1) ( 0)

1

1

1

1

( )

(1

)

2

2 1

2

2 100

x x y y y y

L

e

I

e

θ θ

π

π

− −

I

= =

=

+ −

2 2 ( 1) ( 0) 1 1 ( ) 1 1 ( ) ln [ ln ln(2 ) ] [(1 ) ln(1 ) ln(2 ) ln100 ] 2 2 2 y 2 2 20000 y x x L= y − π − −θ ⋅I = + −y − − π − − −θ ⋅I = 2 ( 1) ( 0) 2 ln 1 ( 1) ( ) 10000 y y L I I θ = = ∂ = − + − ∂ 2 2 ln ( ) 1 1 ( ) ( ) (1 ) 2 10000 L I θ E θ θ ∂ = − = + ∂ (4.3) 費 雪 訊 息 與 最 大 概 似 估 計 的 變 異 數 之 間 有 這 樣 的 關 係 式 存 在 , 1 ( ) ˆ ( MLE) I Var θ θ ≈ ,因此費雪訊息可以提供我們估計準確度的資訊。在我們已經 看到投擲銅板為正面或反面時,如已看到銅板為正面時,x 的變異數應為 1,因 此4.1 式中I( |θ Y = =1) 1是非常合理的;而4.3 式中 ( ) 1(1 1 ) 2 10000 I θ = + ,費雪訊

(26)

息值I( )θ I( | ) ( )θ y f y dY −∞ =

y ∞ 即為I( |θ Y =1)與I( |θ Y =0)的平均值,所表示關於 θ的訊息比真實的訊息小許多,因此可知由這個角度所得到的變異數訊息非常不 合理。有鑑於此,可解釋為何 D.A.S. Fraser(2005)認為,較適合的費雪訊息(Fisher information)應為 ( | )IT θ U 而非IT( )θ 這個觀點。 下面小節我們將探討另一個例子在給定輔助統計量下的統計推論,延續此小 節,也將繼續觀察與費雪訊息間的關係。 4.2 充分原則與條件原則使用之次序 此小節,將試著比較給定不同的輔助統計量下的條件推論,而找輔助統計量 的方法,是利用「由原始資料直接找出的輔助統計量」與「經由最小充分統計量 尋找的輔助統計量」這兩種不同的角度,亦即「先用條件原則再用充分原則」與 「先用充分原則再用條件原則」希冀研究出兩者之間的差異。 4.2.1 X i i d. . .~ N( ,θ θ 比較兩種不同角度的統計推論 2) (i) 由「原始資料直接找出的輔助統計量」:令 1 2 1 1 2 1 ( , ,..., ) ( , ,..., n ) n n n n x x x y y y x x x − − = 由於X i i d. .~ N( ,θ θ ,可知2) 1 2 1 1 , 2 ,... 1 n n n n n x x x y y y x x x − − = = = 這些變數的分配將與參 數θ無關,因此選取y y1, ,...2 yn1作為輔助統計量,研究x 在給定此輔助統計量 1, ,...2 n 1 y y y 下的條件推論。 為了研究此目的,先將x y y| , ,...,1 2 yn1的條件分配求出。導出分配的過程詳 述如下: Step 1: f y y( , ,..., )1 2 x 的聯合分配: 利用變數變換,可知 2 2 2 2 1 2 1 2 2 1 2 1 1 1 ( , ,... , ) ( ) exp [( ) ( ) ( ) ( ) ] 2 2 n n n n n n n f y y y x y x θ y x θ y x θ x θ J θ πθ − = ⎧⎨− − + − + − − + − ⎫⎬ ⎩ ⎭

(27)

其中 1 2 2 1 2 1 2 1 1 2 1 0 ... 1 0 ... ( , ,..., , ) 1 ( , ,..., ) .... 1 1 1 ... n n n i n i n n n n n x x x x x d y y y x J x x d x x x x n n n n − = = = =

⋅ 1 1 1 1 1 1 ( ) 1 n n n i i n n n i i i i nx x nx x nx y x x y − − − = = = = − = − ⇒ = +

故 2 2 2 1 2 2 2 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 ( , ,... ) ( ) exp [( ) ( ) ( ) ( ) ] 2 2 1 1 1 1 ( 1 ) n n n n n n n i i i i i i i n n i i nx nx nx nx f y y y y y y y y y y nx y 2 i x θ θ θ θ πθ − − − − − = = = = − = ⎧ ⎫ ⎪ ⎪ ⎪ ⎪ = ⎨− − + − + − + − ⎬ ⎪ + + + + ⎪ ⎪ ⎪ ⎩ ⎭ + ×

θ (4.4) Step2: f x y y( | , ,...1 2 yn1)的條件分配: 在y y1, ,...2 yn1下,可將其視為常數,因此 1 2 2 2 1 2 1 2 1 1 2 1 1 1 1 1 1 1 1 1 1 ( | , ,... ) ( ) exp [( ) ( ) ( ) ( ) ] 2 1 1 1 1 n n n n n n n n i i i i i i i nx nx nx nx f x y y y x y y y y y y y θ θ θ θ θ − − − − − − − = = = = ⎧ ⎫ ⎪ ⎪ ⎪ ⎪ ∝ ⋅ ⎨− − + − + − + − ⎬ ⎪ + + + + ⎪ ⎪ ⎪ ⎩

⎭ 2 i θ (4.5) (ii) 「先找最小充分統計量再找輔助統計量」: 2 x S . . 2 ~ ( , ) i i d X N θ θ ,由其概式函數 2 2 ( ) 2 2 1 2 i x n e θ θ πθ − −∑ 可知( ,x S2)為其最小充分統 計量,且因為x~ N(1,1 n θ )與 2 2 ~ ( 1 S nθ χ− n−1)獨立, 2 x S 的分配將與參數θ無 關,因此選取 2 x S 作為給定的輔助統計量。同樣的,先求出x 在給定輔助統計量

(28)

2 x S 的條件分配 ( | 2) x f x S ,並令 2 x A S = 方便我們討論,詳細過程如下: Step 1:求出xS2 的聯合分配: 由一般的數理統計教科書中,我們知道x 與S2獨立,且x 的邊際分配 (marginal distribution)為 2 ( , ) N n θ θ ,S2的邊際分配為 ( 1, 21 2 2 n n ) θ − − Γ 因為 x 與S2互相獨立,進而可求得x S2 的聯合分配 f x S( , 2) 2 2 1 2 2 2 2 ( 1) 2 ( ) 2 2 2 2 2 2

1

2 (

)

2

( ,

)

1

(

)

2

n n S n x n

n

S

e

f x S

e

n

n

θ θ θ

θ

θ

π

− − − − ⋅

Γ

1

=

2

(4.6) Step 2: x 與 2 x S 的聯合分配: 將 Step1 中 4.6 式的結果利用變數變換,可得 x 與 2 x A S = 的聯合分配。 2 2 2 ( ) ( 1)( ) 1 1 2 2 2 2 2

1

1

1

( ,

)

2 (

)

1

2

(

)

2

2

x n x n n n A n

x

n

x

f x

A

e

n

A

S

n

θ θ

θ

θ

π

− + − − −

=

=

⋅ ⋅

Γ

Step 3: 2 | x x S 的條件分配: 2 ( , x ) f x S = A 在給定 2 x A S = 之下,可將 A 視為一常數,因此可得 2 2 2 2 2 1 ( ) 2 1 2 2 1 ( | ) ( ) n x n n x A A n n x f x A c x e S n θ θ θ

θ

+ − − + − − = = ⋅ ⋅ (4.7) 其中c 為使 f x( | x2 A d x) 1 S ∞ −∞ = =

的值。

(29)

比較 4.5 式 f x y y( | , ,... )1 2 y 的分配與 4.7 式n 2 ( | x ) f x S = A 的分配,可以發 現,這兩個條件分配,雖然給定不同的輔助統計量作為條件,但推導出來的條件 分配 f x y y( | , ,... )1 2 y 與n 2 ( | x ) f x S 卻是一樣的。 這樣的結果,是否為偶然,或者必然?我們利用下面敘述來釐清此觀點。 若( ,W Z)為最小充分統計量,( ,Z V)為一個最大輔助統計量,在此例中,( , 即為 , ) W Z V 2 1 2 2 ( ,x S , ( , ,...,y y yn− )),則 f w z v( , , )可利用不同方式寫出, ( , , | ) ( | , , ) ( , ) f w z v θ = f w z vθ f z v (4.8) ( , , | ) ( , | ) ( | , ) ( | , ) ( ) ( | , ) f w z v θ = f w z θ f v w z = f w z θ f z f v w z (4.9) 可以發現,事實上4.8 式中的 f w z v( | , , )θ 與 4.9 式中的f w z( | , )θ 不見得會相 同,若分配具有完備性,則根據Basu 定理可得知,完備且最小充分統計量W ,Z 與輔助統計量Z,V 獨立,所以應該沒有 Z 分量,也因此,f w z v( | , , )θ 與 f w z( | , )θ 才一定會相同。 然而在此例中,分配並無具備完備性,因此, f w z v( | , )= f x y y( | , ,... )1 2 yn 與 2 ( | , ) ( | x ) f w z f x S θ = 推導出的結果相同,其實並無絕對。有鑑於此,我們試著 找出會讓結果不相同的分配與輔助統計量,不過很可惜的目前並未找出。 4.2.2 給定輔助統計量之下的費雪訊息 延續 4.1 小節,比較隨機變數( ,x S2)在沒有給定任何輔助統計量與給定輔 助統計量下 2 x S 的費雪訊息。 (i) ( ,x S2)的費雪訊息: 2 ( ,x S )在沒有給定條件下的費雪訊息計算過程如下:

(30)

2 2 1 2 2 2 2 ( 1) 2 ( ) 2 2 2 2 2 2

1

2 (

)

2

( ,

)

1

(

)

2

n n S n x n

n

S

e

L

f x S

e

n

n

θ θ θ

θ

θ

π

− − − − ⋅

=

Γ

1

=

2

(4.10) 將概似函數 (likelihood function) L 取對數後,對參數θ微分兩次可得 2 2 2 2 3 4 4 ln ( )L θ 4(x θ)n 3(x θ) n 3(n 1) θ θ θ θ ∂ = − − ∂ 2 S (4.11) 接著將4.11 式取期望值並給負號可得I( )θ 2 2 2 3 4 4 4( ) 3( ) 3( 1) ( ) ( x n x n n S ) I θ E θ θ θ θ θ − − − = − − − − 2 2 3 4 4 1/ 2 3 3( 1) 4( ) 1/ 2 n n n n n n θ θ θ θ θ θ θ − ⋅ − ⋅ − = + + 2 3n θ =

(4.12) (ii) 在給定輔助統計量 2 x A S = 下的費雪訊息: Step1: f x A( , )的聯合分配, 2 1 1 2 ( 1) ( ) 2 2 2 1 2 2 2 1 2( ) ( ) 1 1 1 2 ( , ) 1 1 ( ) 2 2 x n n x n A n n x e A f x A e x n A n θ θ θ θ π − − − − − − = − ⋅ ⋅ − Γ (4.13) Step2: ( )f A f x A d( , ) ∞ −∞ =

x ,且積分中利用變數變換可將 4.13 式 f x A( , )變數變 換為 f t A( , ),即 f A( ) f t A( , ) −∞ =

dt ∞ 2 2 ( 1) 1 1 2 1( ) 2 2 2 2 1 1 1 1 ( ) ( , ) 2 ( ) ( ) 1 2 1 ( ) 2 2 t n n n n A n t t f A f t A dt e e t n A A n π − − − − − − = = − ⋅ ⋅ ⋅ ⋅ ⋅ Γ

dt (4.14)

(31)

4.14 式中積分部分的結果為A的函數,令作H A( ),經過冗長的計算,我們 得到 2 1 2 1 [ ] 2 2 2 0 1 ( ) ( ) 1 1 2 ( ) ( ) 2 ( 1)! !( 1 2 )! n j n j n n k n j n k k H w e n A π k j n j − − − − − − = = ⋅ ⋅ ⋅ ⋅ − − −

其中k n n2 12 A A = + − Step3:根據定義 ( | ) ( , ) ( ) f x A f x A f A = 推導出 f x A( | )的分配為 2 2 ( 1) 1 1 2 2 ( 2 ( , ) 1 1 ( | ) ( ) ( ) ( ) ( ) x n x n n A f x A x x f x A e e ) f A A θ θ θ θ θ − − − − = = ⋅ ⋅ ⋅ H A Step4:將概似函數L= f x A( | )取對數,再對參數θ微分兩次可得 2 2 2 2 2 ln ( ) 1 1 [2 ( ) 2 ( 1)( ) 2 3( 1)( ) ( ) ] L x x x n n n n A θ x 2 θ θ θ θ θ θ ∂ = − − − + − − − ∂ Step5:將步驟 4 微分後的式子取期望值並給負號,可得I( | )θ w 2 2 2 1 1 ( | ) ( [2 ( )x 2 (x 1)( )x 2 3( 1)( ) ( ) ])x I w E n n n n A θ θ θ θ θ θ = − − − − + − − − 2 2 2 2 1 1 [2 ( )x 2 ( ( ) 1) ( )x x 2 3( 1)( ) ( ) ]x 2 nE n E E n n E A θ θ θ θ = − − − − + − − − θ (4.15) Step6:分別計算出 ( )E x θ 與 2 ( )x E θ 2 2 ( 1) 1 1 2 2 ( ) 2 1 1 ( ) ( | ) ( ) ( ) ( ) x n x n n A x x x x x E f x A d x e e d x A H θ θ θ θ θ θ θ θ − − − − =

⋅ =

⋅ ⋅ ⋅ ⋅ A 積分中利用變數變換可將式子整理為

(32)

2 [ ] 2 0 1 2 1 [ ] 2 0 1 ( ) ( ) 2 !( 2 )! ( ) 1 ( ) ( ) 2 !( 1 2 )! i n i n i j n n j n k k x i n i E n n k k j n j θ − = − − − = − = ⋅ − −

j 同樣方法與步驟可算出 1 2 1 [ ] 2 0 2 1 2 1 [ ] 2 0 1 ( ) ( ) 2 !( 1 2 )! ( ) ( 1) 1 ( ) ( ) 2 !( 1 2 )! i n i n i j n n j n k k x i n i E n n n k k j n j θ + − + = − − − = + − = + ⋅ − −

j Step7:利用 4.15 式中的I( | )θ A 與Step6 所算出的 ( )E x θ 與 2 ( )x E θ 的結果,並令 1 θ = ,n=5與10,畫出AI( | )θ A 的關係圖。 圖4.1 n= 時5 AI( | )θ A 關係圖

(33)

圖4.2 n=10時AI( | )θ A 關係圖 在觀察上面兩張圖之前,先用下面敘述瞭解I( )θ 與I( | )θ A 的關係。 x 與 S 的聯合分配 2 f x S( , 2) f x A J x S( , ) ( , 2) θ = θ ⋅ 概似函數 log f x A( , ) log ( ,J x S2) θ = + A 對參數θ微分兩次並給負號 2 2 2 2[log ( , )]f x Aθ θ θ ∂ ∂ − = − ∂ ∂ A A

⎯⎯⎯⎯→

Expx A, ( ) I θ 亦即平均準確度

{

}

2 2 log[ ( | )f x A f Aθ ( )] θ ∂ = − ⋅ ∂ A 2 2[log ( | )]f x Aθ θ ∂ = − ∂ A

⎯⎯⎯⎯→

Expx A | ( | ) I θ A 亦即條件準確度 由上面式子可以發現,若將I( | )θ A 針對A再取一次期望值即可得到I( )θ 。 換言之,平均準確度I( )θ 可視為條件準確度I( | )θ A 的平均。觀察圖4.1,當θ = ,1 時, 5 n= A的平均約等於 1,所對應的I( |θ A= =1) 14.37,接近 4.12 式中的 2 3 15 ( ) 15 1 n I θ θ = = = 。而當θ = ,1 n=10,樣本數較大時,I( |θ A= =1) 29.4與 3 30 ( ) n 30 I θ = = = 已非常接近,與結果相符合。

(34)

4.2.3 X i i d. .~ N( ,1)θ 比較兩種不同角度的統計推論 接著再看一個例子,已知Xii i d. .~ N( ,1)θ ,i=1, 2...5,x 為最小充分統計量,x 的分配為N( ,1)

θ

,現取得一組輔助量U x( )為x1− ,x5 x2− ,x5 x3− ,x5 x4x5 希冀比較在不給定任何條件的x 與給定輔助統計量 下的統計推估(即先經過 充分統計量找的輔助統計量與從原始資料直接找的輔助統計量之比較)。 ( ) U x 先將 f x U x( | ( ))推導出,詳細過程如下: Step 1: 令u1= −x1 x u5, 2 =x2x u5, 3 =x3x u5, 4 =x4x u5, 5 = x 先計算出 2 5 1 2 3 4 ( ) 1 2 ( , , , ) 5 1 2 3 4 5 5 1 ( , , , , ) 2 u g u u u u f u u u u u e e θ π − − ⋅ = ⋅ Step 2:利用

f u u u u

( , , , )

1 2 3 4

=

f u u u u u du

( , , , , )

1 2 3 4 5 5計算出

f u u u u

( , , , )

1 2 3 4 1 2 3 4 ( , , , ) 1 2 3 4 1 2 3 4 5 5 4 1 1 ( , , , ) ( , , , , ) 5 2 g u u u u f u u u u f u u u u u du e

π

=

= ⋅ 根據定義 5 1 2 3 4 1 2 3 4 5 1 2 3 4 ( , , , , ) ( | , , , ) ( , , , ) f u u u u u f u u u u u f u u u u = 得到 2 5 ( ) 1 2 1 2 3 4 5 5 5 1 2 3 4 1 2 3 4

( , , , , )

1

1

( | , , , )

~ ( , )

( , , , )

1

5

2

5

u

f u u u u u

f u u u u u

e

N

f u u u u

θ

θ

π

− − ⋅

=

=

(4.17) 由4.17 式發現, x 在給定U x( )條件下的分配,與x 的分配是一樣的。由於 x 為θ之最小充分統計量且具完備性,現給定的x1− ,x5 x2− ,x5 x3− ,x5 x4− 為x5 輔助統計量,由Basu 定理可得知, x 與U x( )獨立。故是否給定輔助統計量的條

(35)

件,對結果是沒有影響的。而計算費雪訊息時,我們可以用充分統計量x 來計算

( )

I θ ,今給定U x( )後所得到的費雪訊息,I( | )θ U ,將等於I( )θ ,因此由之前的

Suffciency Principle 與現在的 Conditional Principle 推估結果,兩者結果一致。

4.2.4 x y, ~i i d. . BN(0, 0,1,1, )ρ 比較兩種不同角度的統計推論 (Fraser 2004)提出了一個二元常態分配的例子,x y, ~i i d. . BN(0, 0,1,1, )ρ ,利用 此例,也希冀可以比較「由原始資料直接找出的輔助統計量」與「經由最小充分 統計量尋找的輔助統計量」這兩種不同的角度所得到的推論。然而不幸的,研究 至此,並無順利找到「經由分配的最小充分統計量尋找的輔助統計量」,雖無法 比較,我們仍將我們現有的結果呈現出來。 若x y, ~BN(0, 0,1,1, )ρ 經由原始資料可直接找出一組輔助統計量U x( ) 為 1... n x x , 探討充分統計量

x yi i,

yi2在給定輔助統計量U x( )下的推論。 先推導出 f(

x yi i,

yi2| , ,... )x x1 2 xn 的條件分配,詳細過程如下: Step 1: 令 zi = yi −ρx xi | ~ N(0,1−ρ2) 利用 與zi y 為一對一對應,可先導出i 的聯合分配進而推出 的分配。 2, ( ) 2 i i i i i i i i z z x = y −ρx x = x yx

∑ ∑

ρ

i n x 2 1 , | ... i i i y x y x

∑ ∑

經過冗長的計算,令 2 1 i i n i i A x y B y = ⎧ = ⎪ ⎨ = ⎪ ⎩

(36)

2 2 2 2 2 3 2 2 2 2 2(1 ) 2 2 2 ( 2 ( ) ) 1 ( , ) 1 ( ) 2 1 2 i B A x n i i i n n i A x B A x e x f A B n x ρ ρ ρ ρ ρ ρ π ρ − + − − ∑ − − + − = ⋅ − Γ ⋅ ⋅ ⋅ −

在給定x x 的情況下,將1... n x x 視為常數,可得 1... n 2 2 2 2 3 2 2(1 ) 2 2 1 2 2

(

)

( , | , ,... )

1

i B A x n i n n

A

B

e

x

f A B x x

x

c

ρ ρ ρ

ρ

− + −

= ⋅

其中c 為使 f A B x x( , | , ,..., ) 11 2 xn ∞ −∞ =

的值。 最後,也算出在沒給定條件下的費雪訊息做為參考。 2 2 2 2 1 1 ( , ) exp[ ( 2 )] 2(1 ) 2 1 f x y x ρxy y ρ π ρ = − − − − + 2 2 2 2 2 1 1 ( , ) exp[ ] (2 ) 1 2(1 ) i i i n n i x x y y L f x y ρ π ρ ρ − + = = × − − −

(4.18) 將4.18 式的概氏函數取對數並對參數ρ 微分兩次可得 2 2 3 2 2 2 2 2 2 2 3 2 3 2 3 (1 3 ) 6 2 (1 3 ) (1 ) (1 ) (1 ) (1 ) i i i i i i x x y x y y L n nρ ρ ρ ρ 2 ρ ρ ρ ρ ρ + + ∂ = + + ∂ −

− ρ + (4.19) 將4.19 式取期望值並給負號可得 2 2 2 (1 ) ( ) (1 ) n I θ ρ ρ + = − 日後的研究希冀可以得到更深入的推估。

(37)

第五章 結論與未來展望

統計推論在給定條件下後有可能會出現與原來不同的結果,而給定不同的條 件,也會影響結果。究竟在何種情況下該給定條件?又該給定何種條件?由前面 四章可做出以下的結論。 1. 如果分配中可以找出輔助統計量,在進行分析前,必須先給定輔助統計量此 條件再進行分析,才可得出較適合的結果。 我們以下面兩個角度說明此觀點:

(i) 費雪訊息:M.Ghosh,N.Reid and D.A.S. Fraser(2005)曾指出較適合的費雪訊 息(Fisher information)應為給定輔助統計量下的 ( | )IT θ U 而非IT( )θ ,在 第4.1 小節中,我們利用投擲銅板的例子說明了此觀點,因此從費雪訊息 此角度探討可以知道,在給定輔助統計量下之分析是較適合的。 (ii) 分配在給定不同的條件下會有不同的結構:如投擲一枚公正的銅板,若出 現 正 面 則 進 行 一 個 N( ,1)θ 的 常 態 試 驗 , 出 現 反 面 則 進 行 一 個 1 1 ( , + )的均勻試驗,在給定此兩種條件下的分配結構不同,則應 進行不同的條件分析,若以整個樣本空間進行分析是很不恰當的。 2 2 U θ − θ 2. 「由原始資料直接找出的輔助統計量」與「經由最小充分統計量尋找的輔助 統計量」這兩種不同的角度,何者較適合?是否得到推估會一樣? 若( ,W Z)為最小充分統計量,( , )Z V 為一個最大輔助統計量,則 f w z v( , , )可 利用不同方式表示, ( , , | ) ( | , , ) ( , ) f w z v θ = f w z vθ f z v ( , , | ) ( , | ) ( | , ) ( | , ) ( ) ( | , ) f w z v θ = f w z θ f v w z = f w z θ f z f v w z 在給定「經由原始資料直接找出的輔助統計量」, f w z v( | , , )θ ,與給定「經 由最小充分統計量尋找的輔助統計量」, f w z( | , )θ ,理論上不見得相同,除非當

(38)

充分統計量與輔助統計量獨立,因此推估的結果才可得到一致,其餘則不然。然 而我們目前所找出分配不具有完備性的例子顯示推估結果皆為相同。 由於給定這兩種不同角度尋找出的輔助統計量後的條件推估,目前並無足夠 的理論可以證明此兩種推估應相同,日後的研究可試著尋找出可以得到不同結果 的分配抑或輔助統計量,或者利用足夠的理論證明這兩者的條件推估一定會相 同。 3. 若找不到輔助統計量,可考慮以接近輔助統計量的統計量作為給定條件。 在4.2.4 二元常態的例子中,並未找到經由充分統計量找出的輔助統計量進 行分析,相當可惜,也因此發現統計學上尚有許多無法經由充分統計量找出輔助 統計量的分配。針對這點的解決方法可以考慮以接近輔助統計量的統計量 (asymptotically ancillary)作為給定條件(統計學上有許多學者做 asymptotically ancillary 此方面的研究,如 M.Ghosh,N.Reid and D.A.S.Fraser(2005)、

Gauri Sankardatta, Malayghosh, et al(2002))。由於 ( , | )f X Y θ = f Y f X Y( ) ( | )θ θ ,則

( ) ( )Y ( X | ) I θ =I θ +I θ Y ,若在樣本數大,且 f Y( )θ 的費雪訊息I( )θY 相對於 f X Y( | )θ 的費雪訊息IX |Y)小很多時,表示 f Y( )θ 所提供關於參數的訊息相對很小,故 可將 f Y( )θ 作為asymptotically ancillary,以 ( | )f X Yθ 進行分析。 希冀由本研究結論及所提供之未來研究方向能幫助日後學者在於條件推估 領域中,獲得更完整之分析結果。

(39)

參考文獻

Barnard,G.A.(1976). Conditional Inference is not Inefficient. Scand.J.Statist.3 132-134

B.L.Welch (1939). On Confidence Limits and Sufficiency,with Particular Reference to Parameters of Location. The Annals of Mathematical statistics ,Vol.10,

No.1,pp.58-69

Cox,D.R. and Hinkley,D.V.(1974). Theoretical Statistics..Chapman and Hall,London. D.A.S.Fraser(2004). Ancillaries and Conditional Inference. Statistical Science,Vol.19, No.2,1-18.

D.R.Cox(1958). Some Problems Connected with Statistical Inference. The Annals of Mathematical Statistics,Vol.29,No.2,pp.357-372.

D.V.Hinkley(1977). Conditional Inference About a Normal Mean with Known Coefficient of Variation. Biometrika,Vol.64,No.1,pp.105-108.

George Casella,Roger L.Berger(2002). Statistical Inference.

Gauri Sankardatta, Malayghosh, et al(2002). On an Asymptotic Theory of Conditional and Unconditional Coverage Probabilities of Empirical Bayes Confidence Intervals. Scandinavian Journal of Statistics.Vol.29,pp.139.

John D.Kalbfleisch(1975). Biometrika,Vol.62,No.2,pp.251-259.

M.Ghosh,N.Reid and D.A.S.Fraser(2005). Ancillary Statistics:A Review. University of Florida and University of Toronto.

N.Reid(1995). The Roles of Conditioning in Inference. Statistical Science,Vol.10, No.2,pp.138-157

V.P.Godambe(1980). On Sufficiency and Ancillarity in the Presence of a Nuisance Parameter. Biometrika,Vol.67,No.1,pp.155-162.

(40)

Walter Kramer and Gerd Gigerenzer(2005). How to Confuse with Statistics or:The Use and Misuse of Conditional Probabilities. Statistical Science,

數據

表 4  三種觀點比較之結果  區間  觀點  1 0.5 1 1                          (1 ) 2 2 1 1 1 1       1 2 (1 )  2 2 2 2                                  ifyR if RyRif Rotherαααα α− &lt;⎧−−±&gt; −⎪⎪⎪⎧− +−⎫−−⎪±⎪+⎪−&lt; ≤ −⎨⎨⎬⎪⎪⎭⎪⎩⎪Φ ⎪信賴  區間  (1 )(1 )2yαR⎧±−− ⎫⎨⎬⎩⎭ 1 0.5 1 1
圖 4.2  n = 10 時 A 與 I ( | ) θ A 關係圖  在觀察上面兩張圖之前,先用下面敘述瞭解 I ( ) θ 與 I ( | )θA 的關係。  x 與 S 的聯合分配 2 f x S θ ( , 2 ) = f x A J x Sθ( , )⋅( , 2 ) 概似函數  A = log f x A θ ( , ) log ( ,+ J x S 2 ) 對參數θ微分兩次並給負號    2 2 2 2 [log ( , )]f x Aθ θ θ∂∂−= −∂∂A A Exp x A, ⎯⎯

參考文獻

相關文件

• Give the chemical symbol, including superscript indicating mass number, for (a) the ion with 22 protons, 26 neutrons, and 19

Teachers may encourage students to approach the poem as an unseen text to practise the steps of analysis and annotation, instead of relying on secondary

• to assist in the executive functions of financial resource management (such as procurement of goods and services, handling school trading operations, acceptance of donations,

In this paper, we build a new class of neural networks based on the smoothing method for NCP introduced by Haddou and Maheux [18] using some family F of smoothing functions.

generalization of Weyl’s gauge invariance, to a possible new theory of interactions

At least one can show that such operators  has real eigenvalues for W 0 .   Æ OK. we  did it... For the Virasoro

Otherwise, if a principle of conduct passes only the universal test but fails to pass this test, then it is an “imperfect duty.” For example, the principle “takes care of

Utilitarianism uses only a simple principle to make moral judgement of right and wrong: “Do things that increase happiness and reduce pain.” This principle