10.1 隨機抽樣
母體:
有限母體
無限母體 --- 元素的數量在理論上是無限多個
(a)
(b)
隨機抽樣
方法:由電腦或計算機產生亂數
利用計算機產生四位數的亂數,我們只取前三位。
略去 000 、大於 138 的數字,以及已經被選到的數 字,假設我們得到了 041 、 021 、 079 、 084 、 012
、 108 、 029 、 003 、 100 、 046 、 126 、與 075 。 這 12 個編號就是我們要挖掘的地點。
略去 000 以及大於 138 的數字,並確保已經被選到 的數字不會被重複選取
得到的樣本為 007 、 012 、 031 、 135 、 114 、 120
、 047 、 124 、 070 、 009 、 118 ,與 094 。
要挖掘的考古地點為編號 7 、 12 、 31 、 135 、 114
、 120 、 47 、 124 、 70 、 9 、 118 ,與 94 。
隨機抽樣
定義 ( 無限母體 ) :
從無限母體中抽選出樣本數為 n 的樣本時,若該 樣本是由獨立隨機變數的值所組成,且這些獨立隨機 變數服從相同的機率分配,則稱為隨機樣本。
投擲一個骰子 12 次,得到
2 、 5 、 1 、 3 、 6 、 4 、 4 、 5 、 2 、 4 、 1 、 2
八個學生測量某矽化合物的沸點:
136 、 153 、 170 、 148 、 157 、 152 、 143 、 150 。
*10.2 抽樣設計
比隨機抽樣更好的抽樣方法
更容易取得樣本資料、成本更低、或是能 獲得更多的資訊
抽樣設計是個相當明確的計畫,在開始抽樣或
收集資料之前就必須定案。
*10.3 系統抽樣
每隔幾個項目抽一個 的方法稱為系統抽樣
最實際的抽樣方式
系統抽樣所涵蓋的範圍可能比較平均。
不利因素:母體當中可能有未知的週期性。
*10.4 分層抽樣
分層(簡單)隨機抽樣
1. 把母體區分成幾個彼此不重複的子區域,稱為層 2. 從每一層中採取隨機的方法抽樣叫做分層抽樣
樣本數的決定
比例分配、最佳分配
比例分配
各層所抽選的樣本數,與該層的大小成正比。
最佳分配
考量到各層內部各自的變異性
交叉分層:根據母體的不同特徵,採用多面向 分層
配額抽樣:分層抽樣中,採訪具備哪幾種特徵
的人、每種的人數。
*10.5 叢聚抽樣
定義:
1. 將整個母體細分成幾個更小的子群體 2. 從這些子群體中隨機選出幾個做為樣本。
子群體是根據地理區域來劃分的話,稱為地
區抽樣。
10.6 抽樣分配
樣本平均數、樣本中位數,以及樣本標準差的數 值會隨著樣本不同而出現差異,都是隨機變數。
它們的分配稱為抽樣分配 (sampling distribution)
N = 5 的母體中,選出兩個當樣 本
抽樣分配中平均數與標準差
是 的抽樣分配的平均數,
其值等於母體平均數 ;
是 的抽樣分配的標準差,其值
小於母體標準差 。
電腦模擬
10.7 平均數的標準誤
樣本平均數的抽樣分配的平均數:
樣本平均數的抽樣分配的標準差:
稱為平均數的標準誤
(a) 兩個標準誤的比率為 1/2
樣本數變成原來的四倍,標準誤變小一半。
(b) 兩個標準誤的比率為 3
樣本數變成原來的九分之一,標準誤變大三倍。
有限母體修正項
除非樣本數超過母體大小的百分之五,不然這 個修正項通常是忽略不計的
有限母體修正項
N = 10000 , n = 100 代入,得到 0.995 這個值非常接近 1 ,所以在實際應用上,可以
忽略不計。
將 N = 5 、 n = 2 , σ 代入的第二個公式
將 N = 1,000 、 n = 15 、 σ = 288.67 代入
的第二個公式,得到
10.8 中央極限定理
將 n = 64 與 σ = 20 代入平均數的標準誤的公式 中,
, 1-1/22 = 0.75
至少有 75% 的機率,誤差會小於 5 。
中央極限定理
從平均數為 μ 且標準差為 σ 的無限母體中選出一 個樣本數為 n 的隨機樣本,則 z 近似於標準 常態分配。
機率值介於 -2 以及 2 之間的面積
表 I 得知, z = 2 時的對應值為 0.4772 機率值為 0.4772 + 0.4772 = 0.9544 。
10.9 其他方面的問題
中位數的標準誤大約是
當我們要估計某左右對稱的母體平均值時,
很明顯樣本平均數要比樣本中位數可靠多了 ,因為樣本平均數所可能產生的誤差比較小。