• 沒有找到結果。

抽樣與統計推論

在文檔中 99math5a (頁 13-26)

1-3: 普查與抽查的優缺點及適用場合

普查與抽查:

普查 抽查

受查對象完整 節省物力,時效性, 機動性高 優點 能取得高精確度資料 可獲既定精確度的估計量

沒有抽樣誤差 具毀損性資料只能用抽樣方法 費時費力 需完整母群體底冊

缺點 不具時效性 需高層次抽樣技術 難保證資料品質 抽樣誤差難以避免 國家基本資料 蒐集精細項目資料 適用場合 受查單位規模大, 數量小 受查單位規模小, 數量大

宜每隔幾年更新資料 適合較短週期的調查; 彌補非普查年資料

母群體: 所研究對象的整體。 抽樣: 為取得樣本之過程。

樣本: 從母群體中選取代表的子集, 以供了解母群體。 樣本資料: 抽樣所得樣本資料數 據。

隨機亂數表: (見附錄)

每一數字出現次數相當且無規律的一些數字表, 作為取樣的號碼依據。 通常依指定 的方法由第n列第k行開始每數個數字一數為抽樣的一個號碼, 如母群體無此號碼 或已選取則取消, 再往下數下一個號碼, 直到取出欲抽樣的樣本個數為止。

1-3: 亂數表

1 5646 9713 5457 6316 2470 1589 3537 4856 2 1824 2087 3481 9008 6295 5307 0595 0085 3 5419 0063 8842 1481 3172 8368 2278 0352 4 0736 3612 2601 8314 5345 4440 3440 4501 5 7694 3558 5396 8937 1036 0913 6342 1601 6 7626 0305 3169 5995 2346 5486 5145 0254 7 4864 3515 0113 0324 8529 5772 2201 3944 8 2975 8738 7388 2520 5350 6409 0022 3944 9 2033 8160 8275 6750 1860 7253 1650 6130 10 1223 0477 2222 0176 4283 2232 1105 7285 11 3202 3377 2546 9120 4650 9945 0689 0718 12 8105 1192 1745 6676 4417 5093 4465 1858 13 6512 4221 8003 0733 3570 9837 0829 3921 14 4864 6538 2675 4880 3075 5687 6981 1414 15 2169 4985 0960 3670 2196 3202 8931 0842 16 2658 7622 0830 8030 3539 2414 9556 6458 17 7564 3005 4827 2165 1357 4997 9475 4948 18 8418 4305 1034 7271 6555 4368 7609 8109 19 8878 0963 6981 2853 1083 5982 1373 5117 20 2520 2784 5797 8428 5487 4035 3379 4822

順伯的窩

https://sites.google.com/site/hysh4math 1.3 抽樣與統計推論 · 抽樣方法: 為了提高統計分析結論的準確性。

抽樣方法的選擇: 就研究目的與實際情況考量正確性、 方便性、 經濟性選擇抽 樣方法。

1. 簡單隨機抽樣 (Simple Random Sampling): 將母群體每一元素編號後, 隨 機選取 n 個號碼, 此 n 個號碼的元素即為 n 個樣本的方法。

優點: 公平客觀。

缺點: 實施不易、 費時、 高成本。

2. 分層抽樣 (Stratified Sampling): 先將母體依某一標準分成幾個不重複的子 母群體, 稱為層。 再將每層隨機抽得的樣本為分層隨機樣本。 (不同層的樣本資 料間存有差異性)

優點: 精確度、 利於比較、 取樣方便。

缺點: 作業計算繁雜、 費時。

3. 系統抽樣 (等距抽樣)(Systematic Sampling): 將母群體元素依某方式排列, 先從前面第 k 個元素選取一個元素後, 再按某固定規律選取下一個元素的抽 樣方法。(僅適用於母體非循環性的資訊)

優點: 作業方便、 簡單。

缺點: 不適用具週期性資料。

4. 部落抽樣 (Cluster Sampling): 先將母體依某一標準分成幾個兩兩不相交 的子集, 稱為部落。 再從隨機抽得幾個部落的全面性樣本為樣本稱部落隨機樣 本。(部落內差異大, 部落間差異性不大)

優點: 經濟省事、 簡便易行。

缺點: 若分群不當會嚴重偏差。

抽查方式: 1. 郵寄 (網站) 問卷: 成本低、 姓名住址不易取得、 回收率低、 資料可靠性 疑慮。

2. 電話訪問: 成本低、 限電話普及區、 如何能使受訪者願意回答問題。

3. 面訪: 花費大、 實施困難、 用於重要複雜的調查。

常態分配(高斯分配) X ∼ N(µ, σ2): 一種常見的連續型隨機變數, 其機率函數f (x) =

√1

2πσe12(x−µσ )2 圖形為倒鐘形的對稱曲線, 稱為機率密度函數 (p.d.f.), 此種機率 分佈稱為常態分配。 若平均值為 µ, 標準差為 σ 我們記為 X ∼ N(µ, σ2)

自然界中, 有許多不確定現象的次數分配可以用常態分配來描述, 例如成人的身高, 生物的壽命, 智力測驗的分數, 零件的壽命, 測量所造成的誤差, 手機電池待機時 間等等。 常態分布的一些重要性質:

1. 常態分配的平均數=中位數=眾數

2. 標準常態分布 Z ∼ N(0, 1): 若一常態分布, 其平均數為0, 標準差為1, 稱此 常態分布為標準常態分布。

3. X 為一常態分布, 平均數 µ, 標準差 σ , 則 Z = X − µ

σ 的平均數為0, 標準 差為1 , 稱Z為X的標準化。

順伯的窩

−4−3−2−1 0 1 2 3 4 5 6

https://sites.google.com/site/hysh4math 1.3 抽樣與統計推論 · 中央極限定理與常態分布的應用:

1. 理論上母群體的平均數 µ , 變異數 σ2 未知, 我門希望透過觀察 (抽樣) 一組 隨機樣本 x1, x2, x3, · · · , xn 平均數 x = x1 + x2 + x3 + · · · + xn

n 來估計

母體均數 µ (大數法則), 樣本標準差 s 來估計母體標準差 σ

2. 隨機樣本 x1, x2, x3, · · · , xn的平均數 X = x1 + x2 + x3 + · · · + xn

n , 樣本標

準差 sx 與樣本平均數標準差 σX 、 母體均數 µ, 母體標準差 σ 的關係 (a) 隨機變數 (樣本平均數) X 的分配會接近常態分配 N (X, σX2 )。

(b) 隨機變數 X 的平均數會與原母體平均數 µ 相等。

(c) 隨機變數 X 的標準差(標準誤) 為 σX 與原母體的標準差 σX 不同, 為 σX = σ√X

n ≈ √sx

n

E(X) = E(n1(X1 + X2+ · · · + Xn)) = n1E(X1+ X2+ · · · + Xn) =

1

n[E(X1) + E(X2) + · · · + E(Xn)] = n1(nµ) = µ

V ar(X) = V ar(n1(X1+ X2+ · · · + Xn)) = n12V ar(X1+ X2+ · · · + Xn)i.i.d.= n12[V ar(X1) + V ar(X2) + · · · + V ar(Xn)] = n12(nσ2) = σ2

n (d) 一般母體的標準差 σ 是未知的, 以樣本標準差 s 來代替 σ ; 由常態分配

的經驗法則知: P r(|X − µ| ≤ 2 × s√

n) ≈ 0.95 (e) 母體 µ 落於隨機區間 [X − 1.96 × s√

n, X + 1.96 × s√

n] 內的長期機率 約0.95

二項分配與常態分布:

當 n 越來越大時, 參數為 (n, p) 的二項機率分配, 會越近似於 µ = np, σ = √npq 的常態分配。

若 np ≥ 5, n(1 − p) ≥ 5 時, 二項機率分配 Bin(n, p) 可視為常態機率分配 N (np, √npq)

1. P ({µ − σ ≤ X ≤ µ + σ}) ≈ 68%

2. P ({µ − 2σ ≤ X ≤ µ + 2σ}) ≈ 95%

3. P ({µ − 3σ ≤ X ≤ µ + 3σ}) ≈ 99.7%

信賴區間C.I. 與信心水準(1 − α)%: 會落於區間 [a, b] 內的機率為 (1 − α)%。 稱區間 [a, b] 為信賴區間,(1 − α)% 為信心水準。

由中央極限定理 (樣本的平均數 X ∼ N(µ,σn)) 及常態經驗法則(68-95-99.7):

X 離母體平均數 µ 在2個標準差 σ

√n範圍內的機率約為95% , 即 P r(|X − µ| ≤ 2 × σ

√n) ≈ 0.95 可解讀為

順伯的窩

0 5 10 15 0.05

0.10 0.15 0.20

10 20 30 40 50

0.02 0.04 0.06 0.08 0.10

1-3: B(20, 0.5)B(50, 0.5)二項機率分配 與常態分配機率曲線

1. X 落於區間 [µ − 2 × σ

√n, µ + 2 × σ

√n] 的機率約為 95% 。 2. µ 落於區間 [X − 2 × σ

√n, X + 2 × σ

√n] 的機率約為 95%

(上述 X 為隨機區間, 若根據某次抽樣的樣本推論, 此時的X即為一固定的隨機變 數x, 則此次樣本所推得的信賴區間必包含母體 µ或不包含母體 µ)

信賴區間=估計值 ± 誤差界限=[ 估計值-誤差值, 估計值+ 誤差值 ] 。 誤差值 e = Zα/2× σ√

n , 其中 Zα/2 為標準常態分配在 (1 − α)100% 信心水準 下的統計值, 在 68%,95%,99.7% 下,Zα/2 值分別約為 1,2,3

信賴區間的意義:

母體均數 µ 的 95% 信賴區間在重複的抽樣下大約有 95% 的區間會涵蓋真正的母 體均數 µ 。 不是說每次得到的信賴區間, 涵蓋真正的母體均數 µ 的機率值為 0.95;

事實上每一次的信賴區間, 涵蓋真正的母體均數 µ 的機率值不是1就是0(不是對 就是錯)

95% 信賴區間就是指重複抽樣 (不同的樣本資料)1000回下, 得出1000個不同的 信賴區間, 此1000個信賴區間中, 每一個信賴區間一定涵蓋母體均數 µ, 否則就是 不涵蓋母體均數 µ, 其中約有950回會涵蓋母體均數 µ。 此時信賴區間涵蓋母體均 數 µ就說其機率值為1, 不涵蓋母體均數 µ就說其機率值為0, 則1000個隨機變數 不是1就是0, 而1約有950個, 因此描述單一個信賴區間為涵蓋母體均數 µ(隨機 變數為1), 稱我們對它有 95% 的信心強度。 而非講說發生涵蓋母體均數的機率為 95%, 因每一回的信賴區間 (隨機變數) 就只有涵蓋、 不涵蓋 (隨機變數非1即0)。

母體均數 95% 信賴區間: [X − 1.96 × σ√

n, X + 1.96 × σ√

n] 的正確解讀

1. 樣本平均數 X 是一隨機變數, 因此信賴區間為一隨機區間(非機率區間), 隨 所抽取出現的樣本之不同而異。 某次樣本所得信賴區間可以概括 µ , 另一次 (組) 樣本所得區間可能不概括 µ, 長期試驗下 µ 被概括在內的可能性為 95%

順伯的窩

https://sites.google.com/site/hysh4math 1.3 抽樣與統計推論 ·

54 56 58 60 62 64 66

10 20 30 40 50

coverage: 94%

54 56 58 60 62 64 66

10 20 30 40 50

coverage: 96%

1-3: 模擬 µ = 60, σ = 10常態分配, 在信心水準 95%, 樣本數1003650個信賴區間, (真 正涵蓋母體均值60覆蓋率為94%96%)

2. 樣本抽出後, 隨機變數 X = x 即已確定, 此時 µ 落於此信賴區間 [x−1.96×

√σ

n, x + 1.96 × σ√

n]的機率為1或0,

3. 樣本平均數與母體真正平均數的誤差值在 1.96 × σ√

n 以內的機率值

= P r(|X − µ| ≤ 1.96 × σ√

n) ≈ 0.95 4. 對事件 x− 1.96 × σ√

n ≤ µ ≤ x + 1.96 × σ√

n 有 95% 的把握可能發生。

對此區間而言, 95% 不是一個機率值。

5. 此區間 [x− 1.96 × σ√

n, x+ 1.96 × σ√

n] 可能會, 也可能不會涵蓋真正的平 均數。 母體平均數落於此區間的機率不是1(涵蓋 µ ) 就是0(不涵蓋 µ )。

6. 多次重複抽樣所得的信賴區間, 其中心點可能都不同, 但每一個區間長度都相 同, 且區間包含母體平均數的比率為 0.95

順伯的窩

實際應用: 大部分不知常態母體標準差的資訊, 此時利用抽樣樣本來推論母體 (此 時機率分布為 t 分配, 隨著n愈大,s → σ, 機率分佈愈接近常態分布)。

在抽出 n 個樣本, 樣本平均數為 x , 樣本標準差為 s 則有關母體均數 µ 的統計 推論為:

1. 68% 的信賴區間: 母體平均數 µ 落在區間 [x− 1 × s√

n, x+ 1 × s√

n] 內的 信心強度為 68% 。 (100回試驗中約有68回為真)

2. 95% 的信賴區間: 母體平均數 µ 落在區間 [x− 2 × s√

n, x+ 2 × s√

n] 內的 信心強度為 95% 。 (100回試驗中約有95回為真)

3. 99% 的信賴區間: 母體平均數 µ 落在區間 [x−2.576× s√

n, x+2.576× s√ n] 內的信心強度為 99%。 (100回試驗中約有99回為真)

母體比率 p 的信賴區間:

[p − e,b p + e] ,b p 為樣本比率, e 為最大誤差值b

令同意 (支持) 與不同意 (不支持) 的隨機變數 X 分別為1與0

隨機樣本 x1, x2, x3, · · · , xn = 1, 0, 0, 1, 1, 1, 0, 1, 0, · · · , ≡ n回伯努利試驗。 其 樣本平均值約為母體比率 (大數法則) 為 p =b

Pxi

n = X , 樣本標準差 Sx =

√npq

樣本比率的平均數 E(p) = E(b Pnxi) = n1E(Pxi) = npn = p

而樣本比率的變異數為V ar(p) = V ar(b Pnxi) = n12V ar(Pnxi)i.i.d.= n12 × npq = pqn, 故樣本比率標準差為 σpb=

qp(1 −b p)b

n ≤ 12√ n

若 X 表服從 Bin(n, p) 的隨機變數成功次數, X 表平均成功次數(大數法則約為 母體贊成的比例p =b Xn) 隨機變數, 則

E(p) = E(X) = E(b xn) = 1

nE(X) = n1 × np = p V ar(p)b = V ar(X) = 1

n2V ar(X)Bin(n,p)= n12 × np(1 − p) = pq n, σX =

qp(1 − p) n

母群體比率估計值的 95% 信賴區間為 (ˆp−1.96

qp(1 − ˆp)ˆ

n , ˆp+1.96

qp(1 − ˆp)ˆ n ) 其中 ˆp 是抽查n個樣本的同意人數比率。 依中央極限定理及常態經驗法則:

有關母體比率 p 的信賴區間:

順伯的窩

https://sites.google.com/site/hysh4math 1.3 抽樣與統計推論 ·

1. 90% 的信賴區間: [p − 1.645b

qp(1 −b p)b

n ,p + 1.645b

qp(1 −b p)b n ] 2. 95% 的信賴區間: [p − 1.96b

qp(1 −b p)b

n ,p + 1.96b

qp(1 −b p)b n ] 3. 99% 的信賴區間: [p − 2.576b

qp(1 −b p)b

n ,p + 2.576b

qp(1 −b p)b n ] 估計母體比率 p 的樣本數與最大誤差: 誤差 e = Zα/2 ×

rp(1 −b p)b

n ≤ 1

√n

其中 Zα/2為標準常態分配在 (1−α)100% 信心水準下的統計值, 在 90%,95%,99%

下, 分別為 1.645,1.96,2.576 最大誤差 e = Zα/2

qp(1 −b p)b

n ≤ Zα/2· 12√

n , (二次函數 p(1 −b p) ≤b 1 4 ) 特別在 95% 信心水準下, 最大誤差 e ≤ 1√

n

信賴區間、 抽樣樣本數與信心水準關係: 母體為常態分布的信賴區間由抽樣的樣本資料、

樣本數與信心水準所決定。

母體 µ 的95%信賴區間 C.I=[X − 2 × σ

√n, X + 2 × σ

√n] = [X ± 2σ

√n]

1. 重複抽樣 (試驗) k 回, 隨著k愈大, 此k個 95% 信賴區間涵蓋母體均數的比 率愈接近 95%

2. 信心水準95% 的抽樣誤差 e = 2σ

√n 。 信賴區間的長度為抽樣誤差的2倍。

3. 若抽樣樣本數為 n , 隨著n愈大, 此 95% 信賴區間的長度就愈短, 但不會改 變此回是否會涵蓋母體均數 (單獨一信賴區間就只有涵蓋、 不涵蓋)

4. 信心水準愈高則信賴區間長度就愈長, 但不會改變此回是否會涵蓋母體均數 (單獨一信賴區間就只有涵蓋、 不涵蓋)。 信心水準99.7% 的抽樣誤差 e =

√3σ n 。

5. 若想信心強度高 (高準確性), 信賴區間短 (高精確性) 則必須抽樣樣本數愈 大。

順伯的窩

母群體比率估計值的 95% 信賴區間為 (ˆp−1.96

qp(1 − ˆp)ˆ

n , ˆp+1.96

qp(1 − ˆp)ˆ n ) 1. 母體比率 p 的信賴區間中點是樣本比率 pb

2. 信賴區間愈短愈精準, 區間長度等於誤差值2倍。

3. 當樣本數 n 愈大時, 若 p 不變, 則抽樣誤差界限 e 愈小, 信賴區間長度變愈b 短。

4. 信心水準愈高, 則誤差 e 會愈大, 信賴區間長度也愈長。

5. 信賴區間會隨著抽樣資料不同算出不同的樣本比率 p , 而得到不同的信賴區b 間。

對信賴區間的錯誤解讀:

1. 若信賴水準為 95% , 則母體均值 µ 落於信賴區間的機率為 95%。

(正解: µ 落於 C.I. 的機率不是1就是0)

2. 若信賴水準為 95% , 則樣本均值 X 落於信賴區間的機率為 95%。

(正解: X 必為其 C.I. 的中點)

3. 若信心水準為 95% 的信賴區間, 則此區間有 95% 的機率會涵蓋母體均值 µ。

(正解: µ 落於此 C.I. 的機率不是1就是0; 就長期重複抽樣下,CI 會涵蓋 µ 的機率約為0.95)

例題演練

例題1 某次考試中, 應試人數 4000人, 考試成績近似於常態分配, 若平均成績是70分, 標 準差9分, 估計分數在61分到79分的大約人數? [Ans:2720人 (資料分佈⇒常態 經驗法則)]

例題2 有關母群體平均數 µ 在 95% 信心水準下的信賴區間的敘述何者正確? (A) 母群 體平均數 µ 落於其信賴區間的機率為 95% (B) 樣本平均數 X 落於其信賴區間 的機率為 95% (C) 其信賴區間涵蓋母群體平均數 µ 的機率為 95% (D) 重複 試驗100回所建構出的100個信賴區間, 可能有95回會涵蓋母群體平均數 µ (E) 95% 信心水準並不是說每一個信賴區間有 95% 的機率會真正涵蓋母群體平均數 µ [Ans:DE]

例題3 已知某學校學生 (人數頗多) 的身高為常態分配, 且標準差為9公分; 今由這些學

例題3 已知某學校學生 (人數頗多) 的身高為常態分配, 且標準差為9公分; 今由這些學

在文檔中 99math5a (頁 13-26)

相關文件