• 沒有找到結果。

5-1-3機率與統計-抽樣與推論

N/A
N/A
Protected

Academic year: 2021

Share "5-1-3機率與統計-抽樣與推論"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)1-3 抽樣與推論 【目標】 理解簡單隨機抽樣的原則與方法﹐藉由抽樣調查所得數據能推估未知的統計參 數﹐並在給定的信心水準下﹐估計某參數所在的信賴區間﹒ 統計的意義在於蒐集數據、整理數據﹐進而解讀數據所隱含的資訊﹒數據來自一 個大群體(人、物)中個體所具有的某項數值﹐例如某國家中國民的年所得、某 個工廠所生產燈泡的壽命﹒統計研究的大群體稱為母體﹐如果對母體中全部個體 的數值都蒐集處理﹐稱為普查﹐普查耗時費力﹐甚至緩不濟急﹐較少使用﹒較常 使用的是抽樣調查﹐即從母體中抽取若干個體成為一組樣本﹐根據樣本的數據﹐ 經過處理﹐最終對母體下結論﹒由於樣本通常只是母體的一小部分﹐因此如何取 得具有代表性而不偏頗的樣本﹐便需講求抽樣方法﹐而有了好樣本才能對母體做 適切的推論﹒ 母體中數據的分布可視為一個隨機變數的機率分布﹒隨機變數有許多類型﹐有些 具有參數﹐只要參數值決定﹐其分布即完全確定﹐而母體參數必須經由樣本數據 推估﹒最基本而常用的統計研究是推估白努利試驗中成功的機率 p ﹐亦即白努利 分布隨機變數 X 中﹐ X = 1 的機率﹒於是﹐我們使 X 的值(1 或 0)反覆出現 n 次﹐ 即重複成敗試驗 n 次﹐令 S 為 n 次 X 值的總和﹐它代表 n 次試驗中成功的次數﹐ S 遵循參數為 n﹐ p 的二項分布﹒例如已知袋中有 N 個球﹐其中有紅球及非紅球﹐ 但紅球數不詳﹐假設有 r 個﹐非紅球就是 N − r 個﹐今欲推估袋中紅球所占比率. r N. (或紅球數 r)﹐可設從袋中任取一球﹐取得紅球為成功﹐令 X = 1 ﹐取得非紅球為失敗﹐令 X = 0 ﹐則隨機變數 X 是白努利分布﹐它的未知參 數p=. r ﹒為了推估 p 值﹐每次取 1 球﹐取 n 次﹐令取得紅球次數為 S﹒若每次 N. 取後放回﹐則 S 是參數為 n﹐ p 的二項分布;若每次取後不放回﹐但已知紅球數 r 及非紅球數 N − r 都遠大於所取的球數 n﹐則 S 的分布可視為二項分布﹒此時﹐ S S 表成功的頻率﹐且 E ( ) = p ﹐ n n S 故通常以試驗中成功的頻率 估計成功的機率 p ﹐而這樣的估計方法在某誤差範 n. 圍內的機率有多大﹐將是本節探討的主題﹒ 註: 母體中有 N 個個體﹐從中取一個含 n 個個體的樣本時﹐設樣本中的個體為 x1 ﹐ x2 ﹐…﹐ xn ﹐若依序被抽出的個體是 y1 ﹐ y2 ﹐…﹐ yn ﹐則這個方式抽出的機率 1 1 1 ﹐又 x1 ﹐ x2 ﹐…﹐ xn 被抽出的順序有 n! 種﹒所以此樣 × ×L × N N −1 N − (n − 1) 1 1 1 n! 1 )= N = N ﹒ 本被抽到的機率為 n! × ( × ×L × N − (n − 1) N N −1 Pn Cn. 為. 18.

(2) 【討論】 1. 簡單隨機抽樣: 假設一母體中總共有 N 個人﹐其中 r 個人贊同某議題﹐其餘 N − r 個人不贊 同﹒現在要從母體中抽取 n 個人為一組樣本﹐抽取的方法比照取球問題中取 後放回或取後不放回的模式﹐即每次隨機抽取 1 人﹐共抽 n 次﹒這種抽樣方 法稱為簡單隨機抽樣法﹐所抽取的樣本稱為簡單隨機樣本﹒一般常採用取後 不放回﹐故在乙段中﹐我們將以取後不放回的方式說明:當 r 及 N − r 都遠 大於 n 時﹐如何利用常態分布估計贊同者所占比率 p =. r ﹐並理解所用方法 N. 在指定的誤差範圍內涵蓋 p 的機率﹒ 設母體中有 N 個個體﹐則用簡單隨機抽樣法從母體中抽取 n 個( n < N )個 體作為一組樣本的方法數為 CnN ﹐其中每一組樣本被抽取到的機率相同﹐都 是. 1 ﹒統計實務上﹐在操作簡單隨機抽樣時﹐首先將全部個體編號﹐通常 CnN. 號碼使用 1﹐2﹐…﹐N(其他方便的編號亦可);其次﹐有下列三種常用的 執行方式: (1)製作籤條抽籤: 當母體不大時﹐可以取 N 張籤條﹐逐一寫上 1﹐2﹐…﹐N﹐放入籤筒﹐每次 抽取一張﹐取後不放回﹐總共抽取 n 張﹐便得到一組樣本﹒ (2)利用隨機號碼表: 表是由 0﹐1﹐2﹐…﹐9 的數字依等機率原則隨機排列﹐橫向(列)每 4 個 數字有空隙﹐縱向(行)每 5 個數字有空隙﹐這些空隙都只是方便查閱而已﹒ 每次使用隨機號碼表時﹐未必要從左上角開始﹐而可以從任一處開始﹐且可 縱向取數﹐亦可橫向取數﹒ (3)使用電腦隨機數: 當母體相當龐大時﹐製作籤條或使用隨機號碼表都是頗為繁重的工作﹒現今 常利用電腦作隨機抽樣﹐較為簡便可行﹒一般程式語言及統計相關的應用軟 體都提供隨機數的功能﹐有些軟體可產生大於等於 0 且小於 1 的隨機小數﹐ 將它乘以一個正整數 N﹐再以去尾法取整數並加 1﹐即可得到 1﹐2﹐…﹐N 中的一個隨機整數﹒ 隨機號碼表 1306 1189 5731 3968 5606 5084 8947 3897 1636 7810 0422 2431 0649 8085 5053 4722 6598 5044 9040 5121 6597 2022 6168 5060 8656 6733 6364 7649 1871 4328 7965 6541 5645 6243 7658 6903 9911 5740 7824 8520 7695 6937 0406 8894 0441 8135 9797 7285 5905 9539. 5160 2961 1428 3666 6543. 7851 0551 4183 5642 6799. 8464 0539 4312 4539 7454. 6789 8288 5445 1561 9052. 3938 7478 4854 7849 6689. 4197 7565 9157 7520 1946. 19. 6511 5581 9158 2547 2574. 0407 5771 5218 0756 9386. 9239 5442 1464 1206 0304. 2232 8761 3634 2033 7945.

(3) 【討論】 1. 信賴區間與信心水準: 取一枚未必公正的硬幣﹐投擲該硬幣出現正面的機率 p 未知﹐今欲估計 p 的 值﹐乃重複投擲 n 次﹐並令出現正面的次數為 X ﹐假設 n = 1000 ﹐則隨機變 X 數 X 遵循參數 n = 1000 及 p (未知常數)的二項分布﹐隨機變數 p = 的平 n. ˆ. p (1 − p ) ﹒由於 n 夠大﹐因此給定 z > 0 時﹐ n. 均數為 p ﹐標準差 σ =. X p (1 − p ) − p |≤ z ) ≈ P(| Z |≤ z ) ﹒ n n 其中 Z 表標準常態分布變數﹐又因 P ( p − z σ ≤ p ≤ p + zσ ) = P ( − z σ ≤ p − p ≤ z σ ). P (| p − p |≤ zσ ) = P(|. ˆ. ˆ. ˆ. ˆ. = P(| p − p |≤ zσ ) = P(| p − p |≤ zσ ) ﹐ 得到 P( p − zσ ≤ p ≤ p + zσ ) ≈ P(| Z |≤ z ) ﹐ p 是一個變數﹐[ p − zσ , p + zσ ] 是 一個變動的區間﹒例如取 z = 2 ﹐則以 p 為中心加減 2 倍標準差 σ 的區間 [ p − 2σ , p + 2σ ] 涵蓋 p 的機率近似於 0.9544 ﹐約為 95%﹒假設實際投擲 1000. ˆ. ˆ. ˆ. ˆ. ˆ. ˆ. ˆ. ˆ. ˆ. ˆ. 次後﹐得到 482 次正面﹐則隨機變數 p 取到一個值. ˆ. 區間就以 0.482 為中心加減 2σ ﹐其中 σ =. 482 = 0.482 ﹐因此上述 1000. p(1 − p ) ﹐此處 n = 1000 ﹐但 p 既是 n. 未知數﹐又如何確定 σ 呢?一般作法是以 p 取到的值代替 p 計算 σ ﹐在此便. ˆ. 0.482 × 0.518 取σ = ≈ 0.016 ﹐於是所得區間為 [0.482 − 0.032, 0.482 + 0.032] ﹐此 1000. 區間稱為 p 值的一個信賴區間﹐同時稱此信賴區間的信心水準為 95% ﹐其意 義是我們使用的統計方法有 95% 的機率可使所得的區間涵蓋 p ﹐而結果實際 得到的信賴區間為 [0.482 − 0.032, 0.482 + 0.032] ﹐即 [0.450, 0.514] ﹐至於此區間 是否涵蓋 p ﹐則不可得知﹒ 重複成功機率為 p (未知常數)的白努利試驗 n 次﹐設成功次數為 X ﹐則成 X p (1 − p ) ﹐當 n 夠大時﹐若實際試 功頻率 p = 的平均數為 p ﹐標準差 σ = n n 驗得到 x 次成功﹐且給定 z = 1, 2, 3 ﹐則將區間. ˆ. [p − z. ˆ. p (1 − p ) p (1 − p ) ,p+z ] (即區間 [ p − zσ , p + zσ ] )中的 p 及 p 都以 n n. ˆ. ˆ. x n. ˆ. ˆ. 實際成功頻率 代入﹐就得到 p 值的信賴區間﹐其信心水準則依 z = 1, 2, 3 ﹐ 依序為 68%,95%,99.7% ﹒. 20.

(4) 【例題】 1. 擲一個出現正面機率 p (未知)的硬幣 n = 50 次,. 23 = 0.46 , 50 p(1 − p) 則 p 會近似常態分布,樣本平均的期望值為 p ,標準差為 σ p = 。 n 2. 此時由於標準差 σ p 未知, 其中正面出現次數為 23 次,也就是正面出現的比率為 p =. ˆ. ˆ. 所以以估計值 p 的標準差 S pˆ =. ˆ. ˆp(1 − ˆp) = 0.07 來代替 n. (當 n 夠大時,誤差會很小)。 3. 得 P (| p − p |≤ 2S pˆ ) = 0.95 (表成 P ( p − 2 S pˆ ≤ p ≤ p + 2S pˆ ) = 0.95 ),. ˆ. 4.. ˆ. 解釋為估計值 p 落在平均數 p 左右各兩個標準差內的機率為 0.95 。 轉換成 P (| p − p |≤ 2S pˆ ) = 0.95 (表成 P ( p − 2 S pˆ ≤ p ≤ p + 2S pˆ ) = 0.95 ),. ˆ ˆ. ˆ. ˆ. 解釋為我們有 95% 的信心, 區間 [ p − 2 S pˆ , p + 2 S pˆ ] 會包含未知參數 p 。. ˆ. 5.. ˆ. 也就是對一回抽樣, 我們有 95% 的信心,區間 [ p − 2 S pˆ , p + 2 S pˆ ] 會包含母體參數 p 。. ˆ. ˆ. 也就是 p 的信心水準為 95% 的信賴區間 [ p − 2 S pˆ , p + 2 S pˆ ]. ˆ. ˆ. (即 [0.46 − 2 × 0.07,0.46 + 2 × 0.07] )。 【理論】 1. 當我們重複作很多次抽樣時,區間 [ p − 1.96 S pˆ , p + 1.96 S pˆ ] 會包含母體真正 p. ˆ. ˆ. 值的機率為 95% ,此區間就稱為信心水準為 95% 的信賴區間,也就是當你 以估計值 p 為中心作一區間,則其會有 0.95 的機率包含 p 。 2. 參數在這區間內的 95% 信賴區間是表示在所有樣本中,有 95% 的樣本所得 到的區間會包含母體參數,即 P ( p − 1.96σ p ≤ p ≤ p + 1.96σ p ) = 0.95 。. ˆ. ˆ. 3.. ˆ. 同樣道理可得: (1) p 的信心水準為 68% 的信賴區間為 [ p − S pˆ , p + S pˆ ] (或表成 p ± S pˆ )。. ˆ. ˆ. (2) p 的信心水準為 99.7% 的信賴區間為 [ p − 3S pˆ , p + 3S pˆ ] 。. ˆ. 4. 5.. ˆ. ˆ. 信心水準越大時,信賴區間越大。 通常我們只藉著一回抽樣,由一組樣本數據來推估參數的信賴區間,在求信 賴區間時,應該如何增加信心? (1) 一個方法是加寬信賴區間,信賴區間的範圍越大,就越有信心,會包含 真正的 p 值。 (2) 另一個方法就是增加樣本大小(改進抽樣的方法,使誤差變小),因信賴 區間為 p ± kS pˆ ,其寬度與樣本大小有關,所以當樣本大小 n 越大時,. ˆ. 信賴區間的寬度就越小,此時我們可以預期得到的樣本比例與母體參數 比例差距會較小。. 21.

(5) 【問題】 1. 要如何增加信心水準呢? 一種是增加信賴區間的寬度,令一種則是改進抽樣的方法,使誤差變小,以 下列出一些常用的信賴水準對照表: 1 − α 0.80 0.90 0.95 0.99 α 0.20 0.10 0.05 0.01. α. 2 zα 2. 0.10. 0.05. 0.025. 0.005. 1.28. 1.64. 1.96. 2.58. 故之前的討論可以改寫成為 ⎛ ⎞ (1 − α ) = P⎜ p − z α × σ ( p) ≤ p ≤ p + z α × σ ( p) ⎟ 2 2 ⎝ ⎠. ˆ. ˆ. ˆ. 此時誤差即 E = z α × σ ( p) = z α ×. ˆ. 2. ˆ. ˆp(1 − ˆp) n. 2. z α × p (1 − p ) 2. 由此可以推估 n =. *. *. 2. E. 2. (其中 p * 為真正母體 p 值的猜測值). 22.

(6) 【意義】 1. 對於一個平均數為 θ ,標準差為 σ 的隨機變數, 就是如果我們不斷重複的抽取很多組樣本大小為 n 的所有可能的隨機樣本,. ˆ. ˆ. ˆ. 每次得到一個統計量 θ 及一個區間 [θ − 2σ ,θ + 2σ ] , 這許許多多的區間有些會把母體參數 θ (某個定數)包含在內、有些則不會 (機率不是 0 ,就是 1 ),但所有這些區間中,有 95% 會涵蓋到未知的參數 θ 。. ˆ. ˆ. 也就是對每一回抽樣得到的信賴區間 [θ − 2σ ,θ + 2σ ] , 我們有 95% 的信心,信賴區間會包含未知的母體參數 θ , 但到底有沒有包含未知母體參數 θ ,實際上我們也不知道。 2. 信賴係數為 0.95 的區間稱為 θ 的一個信心水準為 95% 的信賴區間, 也就是如果我們重複很多回抽樣,求出信賴區間(樣本大小不變),長期下 來,平均每 100 次的抽樣中有 95 次所得到的信賴區間會包含未知參數 θ 在 內。 3. 當參數的信賴區間估計之信心水準為 95% 時,以下所言皆正確: (1)在所有可能樣本中,有 95% 的信賴區間會包含參數在內。 (2)對某一組樣本而言,有 95% 的信心會包括參數在此信賴區間內。 (3)信心水準 99% 的信賴區間較信心水準 95% 的信賴區間為寬。 4.. ˆ. ˆ. 樣本的估計值為 θ ,母體的參數為 θ ,那 θ 是否會等於 θ ? 通常樣本估計值與母體參數不會一樣, 只能說樣本估計值 θ 接近母體參數 θ ,那究竟有多接近呢? 信賴區間就是具體說明了接近的意義。 如果抽出大小為 n 的一組隨機樣本,若這個樣本的成功比例為 p ,. ˆ. 5.. 變數 X 的期望值為 p ,標準差為 σ =. ˆ. p (1 − p ) 。 n. 通常我們只作一回隨機抽樣, 當母體參數 p 的估計值為 p 時,因母體參數 p 未知, p 的平均數與 p 相同,. ˆ. 我們常用 S pˆ = 6.. ˆ. ˆp(1 − ˆp) 作為樣本分配的標準差估計值。 n. 當樣本大小夠大時 (通常取樣本大小 n 滿足 np ≥ 5 且 n(1 − p) ≥ 5,若 p 未知時,可用 p 來估計), 可以利用常態分配表來推算一次隨機抽樣可得到的母體參數 p 的信賴區間。. ˆ. 23.

(7) 【理論】 常見分布: 1. 白努利分布(Bernoulli distribution): (1) 一隨機變數 X 若滿足 P( X = 1) = p , P( X = 0) = 1 − p ,其中 0 ≤ p ≤ 1 , 稱 X 為具有參數 p 之白努利分佈。可表成 X ~ Ber ( p) 。 ⎧1 − p, x = 0 ⎪ (2) p.d . f . 為 f ( x) = ⎨ p, x = 1 。 ⎪0, other ⎩. ∑ f ( X = x) = f ( X = 0) + f ( X = 1) = (1 − p) + p = 1 。 x. (3) 由 E ( X ) = 1 × p + 0 × (1 − p ) = p 。. 2.. 及 E ( X 2 ) = 12 × p + 0 2 × (1 − p) = p 。 得 Var ( X ) = E ( X 2 ) − ( E ( X )) 2 = [12 × p + 02 × (1 − p)] − p 2 = p(1 − p ) 。 (4) 使用時機:只有所謂成功與失敗兩種情形的試驗;或者只有兩種情形的 試驗。 二項分布(binomial distribution): (1) 觀測 n 個獨立的伯努力試驗,每次成功之機率設為 p 。隨機變數 X 表成 功之總次數,稱 X 為具有參數 n 及 p 之二項分佈,其中 n 為一正整數, 0 ≤ p ≤ 1 。可表成 X ~ B(n, p) 。 (2) p.d . f . 為 f ( x) = C xn p x (1 − p ) n− x , x = 0,1,L, n 。 n. n. ∑ f ( X = x) = ∑ C xn p x (1 − p) n− x = ( p + 1 − p) n = 1 。 x =1. x =1. n. n. x =0. x =0. (3) 由 E ( X ) = ∑ xf ( x) = ∑ xC p (1 − p ) n x. x. n −1. n −1. t =0. t =0. n− x. n. = ∑ nC xn−−11 p x (1 − p) n− x x =1. = ∑ nCtn−1 p t +1 (1 − p) n−( t +1) = np ∑ Ctn−1 p t (1 − p) n−t −1. = np 。 n. n. x =0. x =1. 及 E ( X 2 ) = ∑ x 2 f ( x) = ∑ nxC xn−−11 p x (1 − p) n− x n −1. = n∑ (t + 1)Ctn−1 p t +1 (1 − p) n−t −1 t =0 n −1. n −1. = np ∑ tCtn−1 p t (1 − p) n−t −1 + np ∑ Ctn−1 p t (1 − p) n−t −1 t =0. t =0. = n(n − 1) p + np 。 得 Var ( X ) = E ( X 2 ) − ( E ( X )) 2 = n(n − 1) p 2 + np − (np) 2 = np(1 − p ) 。 (4) 使用時機:連續白努利實驗中成功的總次數,例如自袋中取球後放回, 觀察其取到白球之總次數;或者獨立投擲銅板,出現正面的總次數;或 者投擲骰子 n 次,點數 1 出現的次數。 2. 24.

(8) 3.. 離散型的均勻分佈(discrete uniform distribution): (1).袋中有 N 張紙牌,編號為 1 至 N ( N 為一正整數)。隨機地取一張紙牌, 隨機變數 X 表所得之點數,稱 X 具有離散型的均勻分佈。 (2).以 D − U (1, N ) 表示。 1 (3). p.d . f . 為 f ( X = x) = , x = 1,2,L, N 。 N N N 1 1 (4). ∑ f ( X = x) = ∑ = × N = 1 。 N x =1 x =1 N N 1 N +1 N ( N + 1) 1 (5). E ( X ) = ∑ ( x × ) = 。 × = N 2 2 N x =1 N 1 N ( N + 1)(2 N + 1) 1 ( N + 1)(2 N + 1) (6). E ( X 2 ) = ∑ ( x 2 × ) = 。 × = N 6 N 6 x =1. ( N + 1)(2 N + 1) N +1 2 N 2 −1 −( ) = 。 6 2 12 4. 常態分佈(normal distribution): (1).若給定兩參數 μ (位置參數)及 σ 2 (尺度參數),其中 μ ∈ R , σ > 0 ,隨 (7). Var ( X ) = E ( X 2 ) − ( E ( X )) 2 =. ( x− μ )2. − 1 2 機變數 X 之 p.d . f . 為 f ( X = x) = e 2σ , x ∈ R ,則稱 X 具有常態 2π σ 分 佈 。 若 X ~ N (0,1) , 稱 X 具 有 標 準 常 態 分 佈 (standard normal distribution),一般以符號 Z 表示具有標準常態分佈之隨機變數,且 常態分佈之機率值皆可藉由標準常態分佈之機率值求得。 (2).以 N ( μ ,σ 2 ) 表示。 − 1 (3). p.d . f . 為 f ( X = x) = e 2π σ ∞. ∞. −∞. −∞. (4). E ( Z ) = ∫ zf ( Z = z )dz = ∫ ∞. 2. 2σ 2. z2. z2. z2. z2. 1 2 −2 1 z e dz = 2π 2π. ∞. −∞. −∞. ,x∈R。. − 1 −2 ∞ 1 ze 2 dz = − e | −∞ = 0 。 2π 2π. (5). E ( Z ) = ∫ z f ( Z = z )dz = ∫ 2. ( x− μ )2. ∫. ∞. zde. −. z2 2. −∞. z2. − ∞ 1 −2 1 =− ze 2 |∞−∞ + ∫ e dz = 1 。 −∞ 2π 2π (6). Var (Z ) = E ( Z 2 ) − ( E ( Z )) 2 = 1 − 0 = 1 。 (7). E ( X ) = E ( μ + σZ ) = μ + σE ( Z ) = μ 。. (8). Var ( X ) = Var ( μ + σZ ) = σ 2Var ( Z ) = σ 2 。 (9).使用時機:常態分佈比較容易處理,圖形為鐘型曲線(bell−shaped curve),且左右對稱,又由於中央極限定理,使得在不太強的條件下, 常態分佈可當作不少大樣本的近似分佈。. 25.

(9)

參考文獻

相關文件

依獎懲及 法定程序 予以書面 懲處 暫時讓學 生與其他 同學保持 距離..

第二級失能 生活補助金 滿第一年 15萬元 11.25萬元 滿第二年 20萬元 15.00萬元 滿第三年 25萬元 18.75萬元 滿第四年 30萬元

應用統計學 林惠玲 陳正倉著 雙葉書廊發行 2006... 了解大樣本與小樣本母體常態、變異數已知與未知 下,單一母體平均數區間估計的方法。知悉

二項隨機 實驗與 二項分配 二項機率分

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

F1部 (共1頁) 適用於與機構於 本學年協作推行 計劃,並將於來 年繼續協作的學 校. 必須填寫預

年齡階段 N(2-3歲班) K1(3-4歲班) K2 (4-5歲班) K3 (5-6歲班) 生活經驗 家庭與學校 家庭與學校 學校與社區 家庭、學校與社區. 重點培養 孝 禮

分項計畫「海上絲路之探索」之設計與推行,基本上針對本校通