• 沒有找到結果。

4-3-5機率與統計(I)-信賴區間與信心水準

N/A
N/A
Protected

Academic year: 2021

Share "4-3-5機率與統計(I)-信賴區間與信心水準"

Copied!
7
0
0

加載中.... (立即查看全文)

全文

(1)第四冊 3-5 機率與統計(I)-信賴區間與信心水準 1.. 常態分配: 一個連續變數 X 的平均數 µ ,標準差 σ 可確定一個常態分配。常態分配曲 線 y = f (x ) 都有相同的外型,具有以下性質: (1) 常態曲線是單峯、對稱、平滑有轉折、曲線尾部兩端可無限延伸的鐘形 曲線。 (2) 常態分配的算術平均數、中位數、眾數都是一樣的。 (3) 變數 X 的平均數 µ 可決定圖形的位置,標準差 σ 可決定圖形的形狀。 (4) σ 越小的常態分配曲線的圖形越陡,越尖窄,數據越集中。 (5) 平均數相同,標準差不同的常態曲線,它們的中心對稱軸相同,而曲線 變化不同;標準差較小的常態曲線其形狀較陡,較窄,表示數據較集中。 (6) 平均數不同,標準差相同的常態曲線,它們的形狀完全相同,由平均數 決定圖形的中心位置,表示各組數據中,數據的差異是一樣的。 (7) 常態機率分配曲線下的總面積等於 1 ,對於 X = µ 左右兩邊之圖形面積 1 都是 。 2. 50% 50% 的資料 的資料. µ −3σ µ − 2σ µ −σ µ µ +σ µ + 2σ µ + 3σ. 2.. 標準常態分配的 68 − 95 − 99 規律: (1) 有 68.26% 的觀測值落在距平均數一個標準差的範圍內(常以 68% 表 示)。 (2) 有 95.44% 的觀測值落在距平均數兩個標準差的範圍內(常以 95% 表 示)。 (3) 有 99.72% 的觀測值落在距平均數三個標準差的範圍內(常以 99.7% 表 示)。 0..9972 0..9544 0.6826. µ −3σ µ − 2σ µ −σ µ µ +σ µ + 2σ µ + 3σ. 3.. 標準常態分配:平均數為 0 ,標準差為 1 的常態分配稱為標準常態分配。若 變數 X 的平均數為 µ ,標準差為 σ ,其機率分配為常態分配,則變數 X −µ 的平均數為 0 ,標準差為 1,即 Z 的機率分配為標準常態分配。 Z=. σ. 第四冊 第三章. 機率與統計(I) — P17.

(2) 4.. 將常態分配轉換成標準常態分配: 設變數 X 的平均數為 µ ,標準差為 σ ,其機率分配為常態分配,若變數 X −µ ,則變數 Z 的平均數為 0 ,標準差為 1, Z 的機率分配為標準常態 Z=. σ. 5.. 6.. 7.. 8.. 9.. 10.. 分配。 標準常態分配機率表: 任意實數 α ,我們以 P ( Z ≤ α ) 表示小於等於 α 的所有 z 的機率, P ( Z ≥ α ) 表 示大於等於 α 的所有 z 的機率,我們也以 P (α ≤ Z ≤ β ) 表示介於 α 與 β 之間 的所有 z 所占的機率,利用累積機率表,我們可求任意事件發生的機率。 下表是標準常態分配 Z 的機率分配表( 0 ≤ Z ≤ α 的機率): α 機率 α 機率 α 機率 α 機率 0.00 0.0000 1.00 0.3416 2.00 0.4772 3.00 0.4987 0.10 0.0398 1.10 0.3643 2.10 0.4821 3.10 0.4990 0.20 0.0793 1.20 0.3849 2.20 0.4861 3.20 0.4993 0.30 0.1179 1.30 0.4032 2.30 0.4893 3.30 0.4995 0.40 0.1554 1.40 0.4192 2.40 0.4918 3.40 0.4997 0.50 0.1915 1.50 0.4332 2.50 0.4938 3.50 0.4998 0.60 0.2257 1.60 0.4452 2.60 0.4953 3.60 0.4998 0.70 0.2580 1.70 0.4554 2.70 0.4965 3.70 0.4999 0.80 0.2881 1.80 0.4641 2.80 0.4974 3.80 0.4999 0.90 0.3159 1.90 0.4713 2.90 0.4981 3.90 0.5000 參數(parameter): 母群體的特徵值稱為參數。 參數的點估計: 要估計母體參數,我們可從母體中取一個樣本,用來估計母體參數,稱為參 數的點估計。 參數的區間估計(interval estimation): 抽樣過程中,估計數剛好等於參數的機會相當低,如果實驗或調查重複了很 多次時,不同的隨機樣本得到的估計值不一定相同,所以常利用一個區間來 估計母體參數,這種估計方式就是參數的區間估計。作參數的區間估計時, 必須指明信心水準以推估信賴區間。 信心水準: 從全體對象中隨機抽取大小為 n 的所有可能樣本,由每個樣本計算出一個平 均值,理論上其中有 (1 − α ) × 100% 的樣本計算出的平均值將包含參數值, (1 − α ) × 100% 稱為信心水準。 信賴區間: 作參數 θ 的區間估計時,區間 (θˆ − a, θˆ + a ) 包含參數 θ 的機率 1 − α 稱為信賴 係數,此區間就稱為參數 θ 的一個信心水準為 (1 − α ) × 100% 的信賴區間。當 信心水準確定後,抽樣誤差越小,信賴區間愈窄,即參數估計的精確度愈高。 例 如 : P | θˆ − θ |≤ 2σ = 0.95 可 表 成 為 P θˆ − 2σ ≤ θ ≤ θˆ + 2σ = 0.95 , 其 中 (θˆ − 2σ , θˆ + 2σ ) 這個區間將未知母體參數 θ 包含在內的機率為 0.95 ,我們稱. (. ). (. 此區間為參數 θ 的 95% 信賴區間。 第四冊 第三章. 機率與統計(I) — P18. ).

(3) 【意義】 1. 就是如果我們不斷重複的抽取樣本數為 n 的所有可能的隨機樣本,每次得到 一個統計量 θˆ 及一個信賴區間 (θˆ − 2σ , θˆ + 2σ ) ,這許許多多的區間有些會把 母體參數 θ (某個定數)包含在內、有些則不會,但所有這些區間中,有 95% 會 涵蓋到未知的參數 θ 。也就是對一次抽樣得到的信賴區間 (θˆ − 2σ , θˆ + 2σ ) , 我們有 95% 的信心,信賴區間會包含未知的母體參數 θ ,但到底有沒有包含 未知母體參數 θ ,實際上我們也不知道。 2. 信賴係數為 0.95 的區間稱為 θ 的一個信心水準為 95% 的信賴區間,也就是如 果我們重複很多次抽樣,求出信賴區間(樣本數不變),那麼長期下來,平均 每 100 回的抽樣中有 95 回所得到的信賴區間會包含未知參數 θ 在內。 3. 當參數的信賴區間估計之信心水準為 95% 時,以下所言皆正確: (1)在所有可能樣本中,有 95% 的樣本值會包含參數在內。 (2)對某一樣本而言,有 95% 的信心會包括參數在此信賴區間內。 (3)信心水準 99% 的信賴區間較信心水準 95% 的信賴區間為寬。 4. 樣本的估計值為 θˆ ,母體的參數為 θ ,那 θˆ 是否會等於 θ ?通常樣本估計值 與母體參數不會一樣,只能說樣本估計值 θˆ 接近母體參數 θ ,那究竟有多接. 5.. 近呢?信賴區間就是具體說明了接近的意義。 如果抽出大小為 n 的一個隨機樣本,若這個樣本的成功比例為 pˆ ,變數 X 的. p (1 − p ) 。通常我們只作一次隨機抽樣,當母 n pˆ (1 − pˆ ) 體參數 p 的估計值為 pˆ 時,因母體參數 p 未知,我們常用 作為樣 n 本分配的標準差估計值。 當樣本數夠大時(通常取樣本數 n 滿足 np ≥ 5 且 n(1 − p ) ≥ 5 ,若 p 未知時,可 用 pˆ 來估計),可以利用常態分配表來推算一次隨機抽樣可得到的母體參數 p 的信賴區間。. 期望值為 p ,標準差為 σ =. 6.. 第四冊 第三章. 機率與統計(I) — P19.

(4) 【問題】 擲一個出現正面機率 p 的硬幣 50 次,其中正面出現次數為 23 次,也就是正面出 23 現的比率為 pˆ = = 0.46 ,則 pˆ 會近似常態分布,樣本平均的期望值為 p ,標準 50 差為 S 。於是 pˆ 的值落在平均數 p 左右各兩個標準差內的機率為 0.95 ,即 P(| pˆ − p |≤ 2S ) = 0.95 。 當 n = 50 ,樣本標準差 S 的估計值. pˆ (1 − pˆ ) = 0.07 n. p (1 − p ) 有誤差,但當 n 夠大時,可以忽略), n 於是 P(| 0.46 − p |≤ 2S ) = 0.95 ,即 P(| p − 0.46 |≤ 2 × 0.07) = 0.95 , 亦即 P(0.46 − 2 × 0.07 ≤ p ≤ 0.46 + 2 × 0.07) = 0.95 , 因此區間 (0.32,0.60) (或表成 0.46 ± 0.14 )包含未知參數 p 的機率為 0.95 。也就是 對一次抽樣得到的 p 的信心水準為 95% 的信賴區間 (0.32,0.60) ,我們有 95% 的信 心,區間 (0.32,0.60) 會包含母體參數 p 。同樣道理可得: 1. p 的信心水準為 68% 的信賴區間為 ( pˆ − S , pˆ + S ) 。 2. p 的信心水準為 99.7% 的信賴區間為 ( pˆ − 3S , pˆ + 3S ) 。 通常我們只藉著一次抽樣,由樣本數據來推估參數的信賴區間,在求信賴區間 時,應該如何增加信心?一個方法是加寬信賴區間,信賴區間的範圍越大,就越 有信心,會包含真正的 p 值。另一個方法就是增加樣本數,因信賴區間為 (會與. pˆ (1 − pˆ ) ,其寬度與樣本數大小有關,所以當樣本數 n 越大時,信賴區間 n 的寬度就越小,此時我們可以預期得到的樣本比例與母體參數比例差距會較小。 【理論】 因為對於標準常態分配中 0.95 = P(− 1.96 ≤ z ≤ 1.96) , 即有 95% 的機率,其估計值 pˆ 會落在加減 1.96 個標準差的範圍內, pˆ ± k. ⎛ ⎞ pˆ − p ≤ 1.96 ⎟⎟ , 也就是 0.95 = P⎜⎜ − 1.96 ≤ σ ( p) ⎝ ⎠ 此是可以表成 0.95 = P( p − 1.96 × σ ( p) ≤ pˆ ≤ p + 1.96 × σ ( p) ) , 解釋成有 95% 的機率估計值 pˆ 會落在區間 ( p − 1.96 × σ ( p), p + 1.96 × σ ( p) ) 中, 反之當你以估計值 pˆ 為中心作一區間,則其會有 95% 的機率包含 p 。 此時由於區間的寬度未知(實際應為 σ ( p ) ), 所以我們以估計值 pˆ 的標準差代替 σ ( p ) ,. pˆ (1 − pˆ ) 來代替,如此就已經夠接近了。 n 所此式子變成 0.95 = P( pˆ − 1.96 × σ ( pˆ ) ≤ p ≤ pˆ + 1.96 × σ ( pˆ ) ) , 就是當我們重複作很多次抽樣時, 區間 ( pˆ − 1.96 × σ ( pˆ ), pˆ + 1.96 × σ ( pˆ ) ) 會包含母體真正 p 值的機率為 95% , 此區間就稱為信心水準為 95% 的信賴區間。 這裡 pˆ ± 1.96 × σ ( pˆ ) 中的 1.96 × σ ( pˆ ) ,也就是常常聽到的信賴水準。 也就是以 SE ( pˆ ) =. 第四冊 第三章. 機率與統計(I) — P20.

(5) 【問題】 1. 要如何增加信心水準呢? 一種是增加信賴區間的寬度,令一種則是改進抽樣的方法,使誤差變小,以 下列出一些常用的信賴水準對照表:. 1−α. 0.80. 0.90. 0.95. 0.99. α α. 0.20. 0.10. 0.05. 0.01. 0.10. 0.05. 0.025. 0.005. 1.28. 1.64. 1.96. 2.58. 2 zα 2. ⎛ ⎞ 故之前的討論可以改寫成為 (1 − α ) = P⎜ pˆ − z α × σ ( pˆ ) ≤ p ≤ pˆ + z α × σ ( pˆ ) ⎟ 2 2 ⎝ ⎠. 此時誤差即 E = z α × σ ( pˆ ) = z α × 2. 2. pˆ (1 − pˆ ) n. z α × p * (1 − p * ) 由此可以推估 n =. 2. E2. 第四冊 第三章. (其中 p * 為真正母體 p 值的猜測值). 機率與統計(I) — P21.

(6) 【定義】 二項分布: 一個試驗的結果只有成功與失敗兩種,每次試驗中成功的機率為 p ,這樣的是稱 為伯努利試驗,其平均值為 µ = p ,標準差為 σ = p(1 − p) 。若每一次試驗的結 果不影響另一次的試驗結果,現在重複實行 n 次的伯努利試驗,則以成功的次數 X 為隨機變數的分配是二項分布。可以求出 X = k 的機率即 n 次的伯努利試驗中 有 k 次成功與 n − k 次失敗的機率為 C kn p k (1 − p ) n − k 。 【例題】 1. 例如當 p = 0.5 時,投擲 5 次硬幣的分布如下表: 正面次數 X 0 3 1 2 1 1 1 1 機率 ( ) 5 5( ) 5 10( ) 5 10( ) 5 2 2 2 2 直方圖如下:. 4 1 5( ) 5 2. 5 1 ( )5 2. 而二項分布的平均值為 µ = np ,標準差為 σ = np(1 − p) , 當 n 滿足時 np ≥ 5 且 n(1 − p ) ≥ 5 時,可以用一個常態曲線來逼近, 這個常態曲線的平均值為 µ = np ,標準差為 σ = np(1 − p) 。 2. 以下列出 n = 2, p = 0.1 , n = 10, p = 0.1 及 n = 50, p = 0.1 的二項分布的機率分布的情形,當 n = 50, p = 0.1 時,就很接近常態曲線。 機率. 0.6 0.5 0.4 0.3. 機率. 0.2 0.1 0 0. 1. 2. n = 2, p = 0.1 機率. 0.3 0.25 0.2 0.15. 機率. 0.1 0.05 0 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. n = 10, p = 0.1 機率. 0.12 0.1 0.08 0.06. 機率. 0.04 0.02. 48. 45. 42. 39. 36. 33. 30. 27. 24. 21. 18. 15. 9. 6. 12. 0. 3. 0. n = 50, p = 0.1. 第四冊 第三章. 機率與統計(I) — P22.

(7) 【定義】 常態隨機變數 X 的平均值為 µ ,標準差為 σ , x−µ 經過 z = 的變換,會變成平均值為 0 ,標準差為 1的標準常態隨機變數。. σ. 定義 F (a ) = P ( z ≤ a ) , 也就是定成標準常態密度曲線之下,位於 z = a 左邊的面積, 如此任意位於 a ≤ z ≤ b 的機率 P (a ≤ z ≤ b) ,也就等於 F (b) − F ( a ) ; 位於 z ≥ a 的機率 P ( z ≥ a ) ,也就等於 1 − P ( z < a ) = 1 − F (a ) 。. a. b. 標準常態分配 對於一般常態隨機變數 X 的平均值為 µ ,標準差為 σ , a−µ x−µ b−µ 如此任意位於 a ≤ x ≤ b 的機率 P (a ≤ x ≤ b) = P ( ≤ ≤ ), 也就等於 F (. b−µ. σ. 也就等於 = 1 − F (. ) − F( x−µ. σ. a−µ. σ. <. σ. ) ;位於 x ≥ a 的機率 = P (. a−µ. σ. ) = 1− F(. a−µ. σ. σ. x−µ. σ. σ. ≥. a−µ. σ. ),. )。. 【性質】 1. 對於二項分布中的成功機率 p 是多少,我們不一定知道,當我們抽出一個樣 本數大小為 n 的隨機樣本,隨機變數 X 代表成功的個數,若其中有 x 個是成 x 功的,那麼樣本中的成功比例 pˆ = 應該與 p 差不多,故可以用 pˆ 估計 p 。 n 但是到底這個估計有多好呢?因為 p 值未知,我們無法知道確實差距,現在 抽很多個樣本數大小為 n 的隨機樣本,則這些 pˆ 值的平均數為 p ,標準差為. p (1 − p ) ,當 n 夠大時, pˆ 有近似常態分布。 n 2. 對於平均數為 µ ,標準差為 σ 的隨機變數 X 1 , X 2 ,L , X n ,那麼當 n 夠大時,. X1 + X 2 + L + X n 會接近平均數為 n σ a−µ x−µ b−µ 的常態分布,則 P ( a ≤ x ≤ b) = P ( σ ≤ σ ≤ σ ) 。 µ ,標準差為 n n n n. 依據中央及限定理可得,樣本平均數 X =. 3. 若 對 於 小 樣 本 而 言 , 且 標 準 差 σ 未 知 時 , 可 以 用 樣 本 標 準 差. 1 n ∑ ( xi − x ) 2 估 計 , 此 時 s = n − 1 i =1 s t= ( x − µ ) ,則 t 形成學生 t 分布。 n. s=. 第四冊 第三章. 1 n ∑ ( xi − x) 2 , 現 在 取 隨 機 變 數 n − 1 i =1. 機率與統計(I) — P23.

(8)

參考文獻

相關文件

接收機端的多路徑測量誤差是GPS主 要誤差的原因之一。GPS信號在到達 地球沒有進到接收機之前,除了主要 傳送路徑之外,會產生許多鄰近目標 反射的路徑。接收機接收的首先是直

普通話科由 1998 年開始,成為香港中、小學核心課程之一。學

主觀機率 指一個事件發生的機率由某 人決定,包括設計上的安排 設定,或者根據相信的程度 而猜測。.. 古典機率 假設樣本空間S中的每一個

1 朋友居五倫之末,其實朋友是極重要的一倫。 /所謂友誼實 即人與人之間的一種良好的關係,其中包括瞭解、欣賞、信

相關分析 (correlation analysis) 是分析變異數間關係的

母體分配 樣本平均數 的抽樣分配 抽樣誤差與 非抽樣誤差 樣本平均數 的平均數與. 變異數

一般而言,信用卡主可直接 在櫃員機提取現金或以其他 轉賬方式動用信用限額內的 現金,這是一種便利但相當 昂貴的借貸方法. 利息

樣本重抽法 (resampling method) 則是一個與實際抽樣分配或是 大樣本漸近分配完全迥異的做法 , 其統計推論的基礎 , 來自 「原有樣