抽樣與統計推論

的機率為何? 又落到幾號溝槽的機率最大?

2. 投擲一公正硬幣3次, 令 X 表出現正面次數的隨機變數, 求隨機變數 X 的機率分布、期望值與標準差?

3. 投擲一公正硬幣4次, 求正面次數的機率分布、期望值、標準差?

4. 某人打靶的命中率為 1

4 , 且每次打靶的結果互為獨立, 此人朝同一目標射擊5次, 求靶面恰中2發的機率? 求擊中靶面次數不超過2次的機率?

5. 已知一箱內裝有8個燈泡, 其中有2個故障, 現今從箱內隨機抽取3個燈泡, 求故障燈泡數目的期望值?

6. 某次測驗, 試卷共有20 題單選題, 每題有4 個選項, 且每題都只有一個正確答案, 大明在此試卷上每題都隨機選擇一選項作答, 求大明此測驗卷答對題數的期望值與標準差? 若每一題為5分, 求大明此次測驗成績的期望值?

7. 隨機變數 X 是參數為 (15, 0.4) 的二項式分佈, 其機率分布圖如下: 選出正確選項 (1) X的期望值為6 (2) X 標準差大於4 (3) X = 6 時, 機率值最大 (4)

P (x = 8) > P (x = 10) (5) P (X = 4) > P (x = 8) 0 1 2 3 4 5 6 7 8 9101112131415 10⁻⁴

0.02 0.06 0.12 0.180.21

隨機變數_X

機率值P(X=k)

參數_{(n, p)}的二項式機率分布圖

8. 重複丟兩枚均勻的硬幣300 次, 若隨機變數 X 表示兩枚硬幣均出現正面的次數, 求 X 的期望值與標準差?

9. 丟一個出現正面機率為 1

4 的硬幣100次, 出現正面次數的期望值及標準差是多少?

若出現正面 k 次的機率為 P_k 則下列選項何者為真? (1) k = 25 時 P_k 為最大值 (2) P24 > P26 (3) P24 = P26 (4) P23+ P24 > P26+ P27

10. 重複丟2枚均勻硬幣300次, 若隨機變數 X 表示2枚硬幣都出現正面的次數, 求 X 的期望值與標準差?

1.5

抽樣與統計推論

母群體: 所研究對象的整體。抽樣: 為取得樣本之過程。

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _·

表 _1-5: 普查與抽查的優缺點及適用場合

普查與抽查:

普查抽查

受查對象完整節省物力_,時效性_, 機動性高優點能取得高精確度資料可獲既定精確度的估計量

沒有抽樣誤差具毀損性資料只能用抽樣方法費時費力需完整母群體底冊

缺點不具時效性需高層次抽樣技術難保證資料品質抽樣誤差難以避免國家基本資料蒐集精細項目資料適用場合受查單位規模大_, 數量小受查單位規模小_, 數量大

宜每隔幾年更新資料適合較短週期的調查_; 彌補非普查年資料

樣本: 從母群體中選取代表的子集, 以供了解母群體。樣本資料: 抽樣所得樣本資料數據。

隨機亂數表: (見附錄)

每一數字出現次數相當且無規律的一些數字表, 作為取樣的號碼依據。通常依指定的方法由第n列第k行開始每數個數字一數為抽樣的一個號碼, 如母群體無此號碼或已選取則取消, 再往下數下一個號碼, 直到取出欲抽樣的樣本個數為止。

表 _1-5: 亂數表

1 5646 9713 5457 6316 2470 1589 3537 4856 2 1824 2087 3481 9008 6295 5307 0595 0085 3 5419 0063 8842 1481 3172 8368 2278 0352 4 0736 3612 2601 8314 5345 4440 3440 4501 5 7694 3558 5396 8937 1036 0913 6342 1601 6 7626 0305 3169 5995 2346 5486 5145 0254 7 4864 3515 0113 0324 8529 5772 2201 3944 8 2975 8738 7388 2520 5350 6409 0022 3944 9 2033 8160 8275 6750 1860 7253 1650 6130 10 1223 0477 2222 0176 4283 2232 1105 7285 11 3202 3377 2546 9120 4650 9945 0689 0718 12 8105 1192 1745 6676 4417 5093 4465 1858 13 6512 4221 8003 0733 3570 9837 0829 3921 14 4864 6538 2675 4880 3075 5687 6981 1414 15 2169 4985 0960 3670 2196 3202 8931 0842 16 2658 7622 0830 8030 3539 2414 9556 6458 17 7564 3005 4827 2165 1357 4997 9475 4948 18 8418 4305 1034 7271 6555 4368 7609 8109 19 8878 0963 6981 2853 1083 5982 1373 5117 20 2520 2784 5797 8428 5487 4035 3379 4822

抽樣方法: 為了提高統計分析結論的準確性。

抽樣方法的選擇: 就研究目的與實際情況考量正確性、方便性、經濟性選擇抽樣方法。

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _· 1. 簡單隨機抽樣 (Simple Random Sampling): 將母群體每一元素編號後, 隨

機選取 n 個號碼, 此 n 個號碼的元素即為 n 個樣本的方法。

優點: 公平客觀。

缺點: 實施不易、費時、高成本。

2. 分層抽樣 (Stratified Sampling): 先將母體依某一標準分成幾個不重複的子母群體, 稱為層。再將每層隨機抽得的樣本為分層隨機樣本。 (不同層的樣本資料間存有差異性)

優點: 精確度、利於比較、取樣方便。

缺點: 作業計算繁雜、費時。

3. 系統抽樣 (等距抽樣)(Systematic Sampling): 將母群體元素依某方式排列, 先從前面第 k 個元素選取一個元素後, 再按某固定規律選取下一個元素的抽樣方法。(僅適用於母體非循環性的資訊)

優點: 作業方便、簡單。

缺點: 不適用具週期性資料。

4. 部落抽樣 (Cluster Sampling): 先將母體依某一標準分成幾個兩兩不相交的子集, 稱為部落。再從隨機抽得幾個部落的全面性樣本為樣本稱部落隨機樣本。(部落內差異大, 部落間差異性不大)

優點: 經濟省事、簡便易行。

缺點: 若分群不當會嚴重偏差。

抽查方式: 1. 郵寄 (網站) 問卷: 成本低、姓名住址不易取得、回收率低、資料可靠性疑慮。

2. 電話訪問: 成本低、限電話普及區、如何能使受訪者願意回答問題。

3. 面訪: 花費大、實施困難、用於重要複雜的調查。

常態分配(高斯分配) X ∼ N(µ, σ²): 一種常見的連續型隨機變數, 其機率函數f (x) =

√1

2πσe⁻¹²⁽^x−µ^σ ⁾² 圖形為倒鐘形的對稱曲線, 稱為機率密度函數 (p.d.f.), 此種機率分佈稱為常態分配。若平均值為 µ, 標準差為 σ 我們記為 X ∼ N(µ, σ²)

自然界中, 有許多不確定現象的次數分配可以用常態分配來描述, 例如成人的身高, 生物的壽命, 智力測驗的分數, 零件的壽命, 測量所造成的誤差, 手機電池待機時間等等。常態分布的一些重要性質:

1. 常態分配的平均數=中位數=眾數

2. 標準常態分布 Z ∼ N(0, 1): 若一常態分布, 其平均數為0, 標準差為1, 稱此常態分布為標準常態分布。

3. X 為一常態分布, 平均數 µ, 標準差 σ , 則 Z = X − µ

σ 的平均數為0, 標準差為1 , 稱Z為X的標準化。

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _·

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _· 中央極限定理與常態分布的應用:

1. 理論上母群體的平均數 µ , 變異數 σ² 未知, 我門希望透過觀察 (抽樣) 一組隨機樣本 x₁, x2, x3, · · · , xⁿ 平均數 x = x1 + x2 + x3 + · · · + xⁿ

n 來估計

母體均數 µ (大數法則), 樣本標準差 s 來估計母體標準差 σ

2. 隨機樣本 x1, x2, x3, · · · , xⁿ的平均數 X = x1 + x2 + x3 + · · · + xⁿ

n , 樣本標

準差 s_x 與樣本平均數標準差 σ_X 、母體均數 µ, 母體標準差 σ 的關係 (a) 隨機變數 (樣本平均數) X 的分配會接近常態分配 N (X, σ_X² )。

(b) 隨機變數 X 的平均數會與原母體平均數 µ 相等。

√n ≈ sx

√n

(d) 一般母體的標準差 σ 是未知的, 以樣本標準差 s 來代替 σ ; 由常態分配的經驗法則知: P r(|X − µ| ≤ 2 × s

√n) ≈ 0.95 (e) 母體 µ 落於隨機區間 [X − 1.96 × s

√n, X + 1.96 × s

√n] 內的長期機率約0.95

二項分配與常態分布:

當 n 越來越大時, 參數為 (n, p) 的二項機率分配, 會越近似於 µ = np, σ = √npq 的常態分配。

若 np ≥ 5, n(1 − p) ≥ 5 時, 二項機率分配 Bin(n, p) 可視為常態機率分配 N (np,√

npq)

0 5 10 15

0.05 0.10 0.15 0.20

10 20 30 40 50

0.02 0.04 0.06 0.08 0.10

圖 1-5: B(20, 0.5)、_{B(50, 0.5)}二項機率分配與常態分配機率曲線

1. P ({µ − σ ≤ X ≤ µ + σ}) ≈ 68%

2. P ({µ − 2σ ≤ X ≤ µ + 2σ}) ≈ 95%

3. P ({µ − 3σ ≤ X ≤ µ + 3σ}) ≈ 99.7%

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _· 信賴區間C.I. 與信心水準(1 − α)%: 會落於區間 [a, b] 內的機率為 (1 − α)%。稱區間

[a, b] 為信賴區間,(1 − α)% 為信心水準。

由中央極限定理 (樣本的平均數 X ∼ N(µ, σ

√n)) 及常態經驗法則(68-95-99.7):

X 離母體平均數 µ 在2個標準差 σ

√n範圍內的機率約為95% , 即 P r(|X − µ| ≤ 2 × σ

√n) ≈ 0.95 可解讀為 1. X 落於區間 [µ− 2 × σ

√n, µ + 2 × σ

√n] 的機率約為 95% 。 2. µ 落於區間 [X − 2 × σ

√n, X + 2 × σ

√n] 的機率約為 95%

(上述 X 為隨機區間, 若根據某次抽樣的樣本推論, 此時的X即為一固定的隨機變數x, 則此次樣本所推得的信賴區間必包含母體 µ或不包含母體 µ)

信賴區間=估計值 ± 誤差界限=[ 估計值-誤差值, 估計值+ 誤差值 ] 。誤差值 e = Z_α/2× σ

√n , 其中 Zα/2 為標準常態分配在 (1 − α)100% 信心水準下的統計值, 在 68%,95%,99.7% 下,Z_α/2 值分別約為 1,2,3

信賴區間的意義:

母體均數 µ 的 95% 信賴區間在重複的抽樣下大約有 95% 的區間會涵蓋真正的母體均數 µ 。不是說每次得到的信賴區間, 涵蓋真正的母體均數 µ 的機率值為 0.95;

事實上每一次的信賴區間, 涵蓋真正的母體均數 µ 的機率值不是1就是0(不是對就是錯)

95% 信賴區間就是指重複抽樣 (不同的樣本資料)1000回下, 得出1000個不同的信賴區間, 此1000個信賴區間中, 每一個信賴區間一定涵蓋母體均數 µ, 否則就是不涵蓋母體均數 µ, 其中約有950回會涵蓋母體均數 µ。此時信賴區間涵蓋母體均數 µ就說其機率值為1, 不涵蓋母體均數 µ就說其機率值為0, 則1000個隨機變數不是1就是0, 而1約有950個, 因此描述單一個信賴區間為涵蓋母體均數 µ(隨機變數為1), 稱我們對它有 95% 的信心強度。而非講說發生涵蓋母體均數的機率為 95%, 因每一回的信賴區間 (隨機變數) 就只有涵蓋、不涵蓋 (隨機變數非1即0)。

母體均數 95% 信賴區間: [X − 1.96 × σ

√n, X + 1.96 × σ

√n] 的正確解讀

1. 樣本平均數 X 是一隨機變數, 因此信賴區間為一隨機區間(非機率區間), 隨所抽取出現的樣本之不同而異。某次樣本所得信賴區間可以概括 µ , 另一次 (組) 樣本所得區間可能不概括 µ, 長期試驗下 µ 被概括在內的可能性為 95%

2. 樣本抽出後, 隨機變數 X = x 即已確定, 此時 µ 落於此信賴區間 [x−1.96×

√σ

n, x + 1.96 × σ

√n]的機率為1或0,

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _·

54 56 58 60 62 64 66

10 20 30 40 50

coverage: 94%

54 56 58 60 62 64 66

10 20 30 40 50

coverage: 96%

圖 _1-5: 模擬 µ = 60, σ = 10常態分配_, 在信心水準 _95% 下_, 樣本數₁₀₀及₃₆的₅₀個信賴區間_{, (}真正涵蓋母體均值₆₀覆蓋率為_94%及_96%)

3. 樣本平均數與母體真正平均數的誤差值在 1.96 × σ

√n 以內的機率值

= P r(|X − µ| ≤ 1.96 × σ

√n) ≈ 0.95 4. 對事件 x − 1.96 × σ

√n ≤ µ ≤ x + 1.96 × σ

√n 有 95% 的把握可能發生。

對此區間而言, 95% 不是一個機率值。

5. 此區間 [x− 1.96 × σ

√n, x + 1.96 × σ

√n] 可能會, 也可能不會涵蓋真正的平均數。母體平均數落於此區間的機率不是1(涵蓋 µ ) 就是0(不涵蓋 µ )。

6. 多次重複抽樣所得的信賴區間, 其中心點可能都不同, 但每一個區間長度都相同, 且區間包含母體平均數的比率為 0.95

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _·

實際應用: 大部分不知常態母體標準差的資訊, 此時利用抽樣樣本來推論母體 (此時機率分布為 t 分配, 隨著n愈大,s → σ, 機率分佈愈接近常態分布)。

在抽出 n 個樣本, 樣本平均數為 x , 樣本標準差為 s 則有關母體均數 µ 的統計推論為:

1. 68% 的信賴區間: 母體平均數 µ 落在區間 [x− 1 × s

√n, x+ 1 × s

√n] 內的信心強度為 68% 。 (100回試驗中約有68回為真)

2. 95% 的信賴區間: 母體平均數 µ 落在區間 [x− 2 × s

√n, x+ 2 × s

√n] 內的信心強度為 95% 。 (100回試驗中約有95回為真)

3. 99% 的信賴區間: 母體平均數 µ 落在區間 [x−2.576× s

√n, x+2.576× s

√n] 內的信心強度為 99%。 (100回試驗中約有99回為真)

母體比率 p 的信賴區間:

[p − e,_b p + e] ,b p 為樣本比率, e 為最大誤差值_b

令同意 (支持) 與不同意 (不支持) 的隨機變數 X 分別為1與0

隨機樣本 x₁, x2, x3, · · · , xⁿ = 1, 0, 0, 1, 1, 1, 0, 1, 0, · · · , ≡ n回伯努利試驗。

其樣本平均值約為母體比率 (大數法則) 為 p =_b

Pxi

n = X , 樣本標準差 Sx = √npq

樣本比率的平均數 E(p) = E(_b Pxi

n ) = 1

nE(^Xxi) = np n = p 而樣本比率的變異數為 V ar(p) = V ar(_b

Pxi

n ) = 1

n²V ar(

Pxi

n )i.i.d.

= 1 n² × npq = pq

n , 故樣本比率標準差為 σp_b =

rp(1 −b p)b

n ≤ 1 2√

若 X 表服從 Bin(n, p) 的隨機變數成功次數, X 表平均成功次數(大數法則約為母體贊成的比例p =_b X

n) 隨機變數, 則 E(p) = E(X) = E(_b x

n) = 1

nE(X) = 1

n × np = p V ar(p) = V ar(X) =_b 1

n²V ar(X)Bin(n, p)

n² × np(1 − p) = pq n, σ_X =

rp(1 − p) n

順伯的窩

https://sites.google.com/site/hysh4math 1.5 抽樣與統計推論 _·

母群體比率估計值的 95% 信賴區間為 (ˆp−1.96

rp(1 − ˆp)ˆ

n , ˆp+1.96

rp(1 − ˆp)ˆ n ) 其中 ˆp 是抽查n個樣本的同意人數比率。依中央極限定理及常態經驗法則:

有關母體比率 p 的信賴區間:

1. 90% 的信賴區間: [p − 1.645_b

rp(1 −b p)b

n ,p + 1.645_b

rp(1 −b p)b n ] 2. 95% 的信賴區間: [p − 1.96_b

rp(1 −b p)b

n ,p + 1.96_b

rp(1 −b p)b n ] 3. 99% 的信賴區間: [p − 2.576_b

rp(1 −b p)b

n ,p + 2.576_b

rp(1 −b p)b n ] 估計母體比率 p 的樣本數與最大誤差: 誤差 e = Z_α/2 ×

rp(1 −b p)b

n ≤ 1

√n

其中 Z_α/2為標準常態分配在 (1−α)100% 信心水準下的統計值, 在 90%,95%,99%

下, 分別為 1.645,1.96,2.576 最大誤差 e = Z_α/2

rp(1 −b p)b

n ≤ Zα/2· 1 2√

n , (二次函數 p(1 −_b p) ≤b 1 4 ) 特別在 95% 信心水準下, 最大誤差 e ≤ 1

√n

信賴區間、抽樣樣本數與信心水準關係: 母體為常態分布的信賴區間由抽樣的樣本資料、

樣本數與信心水準所決定。

母體 µ 的95%信賴區間 C.I=[X − 2 × σ

√n, X + 2 × σ

√n] = [X ± 2σ

√n]

1. 重複抽樣 (試驗) k 回, 隨著k愈大, 此k個 95% 信賴區間涵蓋母體均數的比率愈接近 95%

2. 信心水準95% 的抽樣誤差 e = 2σ

√n 。信賴區間的長度為抽樣誤差的2倍。

3. 若抽樣樣本數為 n , 隨著n愈大, 此 95% 信賴區間的長度就愈短, 但不會改

在文檔中 99math5b (頁 14-28)