數學期望值與二項分配
數學期望值與標準差
我們在高二下的時候,已經介紹過數學期望值(機率)、平均數與標準差(統 計)。首先我們先來分辨期望值與平均數的差別,不過當時我們並沒有刻意談到 這兩個概念的分別,平常我們在日常生活中也常常誤用,因此請同學特別留意。
正確的說法是機率上才有期望值,它的定義就如高二我們碰到的一樣。如果一個 試驗所有可能值(可想成報酬)為m m1, 2,",mn, 且個別發生的機率為p p1, 2,",pn, 則
1 n
i i i
m p
∑= 為其期望值。但是如果今天你已經得到很多統計資料的結果
1, 2, , n,
x x " x ,那我們就把這些結果平均起來,因此我們定義母體平均數為
1
1 .
N i i
N x μ
=
= ∑ 那兩者的差異在哪?當我們還沒進行試驗前,我們會去算期望值(預 期的報酬),但是得到資料的結果,我們會去算平均值。再加上我們期望值的意 義,是說明在經過很多的試驗,平均下來的報酬。也就是我們利用平均數去解釋 期望值的意義,所以這兩個概念更容易混亂,不過我們也可以從平均數回頭來看 期望值的概念。
在以前我們會算加權平均數,跟上面情形一樣,如果考慮有m m1, 2,",m kk, 個 值,該組資料所佔的比例為p p1, 2,",pk, 則平均數
1
,
k i i i
μ m p
=
=∑ 這也就很像我們
所看到的平均數的定義,如果我們將其比例想為其發生的機率(即古典機率的假 設),那我們的確可以將其想為期望值。
事實上在機率理論中,也有(機率)標準差(但與統計標準差為同一個詞,更容 易搞混)的定義,我們可以仿照上面的想法,考慮母體標準差σ 也可以寫成
2 1
( ) ,
k
i i
i
m p
σ μ
=
= ∑ − 其中μ 是期望值(不是平均數),因此我們就定定義(數學)標
準差 2
1
( ) .
k
i i
i
m p
σ μ
=
= ∑ −
Note. 這裡(機率)變異數與(數學)變異數是一樣的。但往後請同學在做題目時自行 判斷是(數學)標準差還是我們以前講的(統計)標準差。還有我們機率與統計中慣 用的符號也是一樣的(因此更難分別)。
底下我們就利用數學期望值與標準差的定義,來看看如何計算吧!
Example1.
擲一公正骰子,若出現點數為 ,k 則可得2k元,試求做此試驗所得錢數的期望值 與標準差。
Solution.
所得錢數的期望值 1 1 1 1 1 1
2 4 6 8 10 12
6 6 6 6 6 6
μ = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅
2 4 6 8 10 12 42 6 6 7.
+ + + + +
= = =
所得錢數的(數學)變異數
2 1 2 1 2 1 2 1 2 1 2 1 2
(2 7) (4 7) (6 7) (8 7) (10 7) (12 7)
6 6 6 6 6 6
σ = − + − + − + − + − + −
25 9 1 1 9 25 70 35
6 6 3
+ + + + +
= = =
故所得錢數的標準差為 35 105.
3 3
σ = =
二項分配
假設有一個試驗,結果可以只歸納出 2 種,成功或失敗。這個我們便稱為白 努力試驗 (紀念 Swiss 數學家 James Bernoulli). 當然啦!我們可以討論一個試 驗,更可以討論n個重複試驗的情況,如果每一次成功的機率皆為 p ,失敗的機 率皆為1−p。且它們每次都不互相影響,這樣的試驗我們稱為二項試驗。
因此,二項試驗具有下列的特徵:
○1 共進行n次的試驗。
○2 每次試驗都互不影響。(即完全獨立)
○3 每一次試驗成功的機率是相同的。
我們將二項試驗成功次數的機率分布情形稱為二項分配。例如,擲一枚均勻 的硬幣三次,每次所得的結果不是正面(成功),就是反面(失敗),此即為二項試 驗,利用集合表示,其樣本空間為:
{(正, 正, 正), (正, 正, 反), (正, 反, 正), (反, 正, 正), (正, 反, 反), (反, 正, 反), (反, 反, 正), (反, 反, 反)}
三正面與三反面的機率為
3 3 3
1 1 2 8,
C ⎛ ⎞ =⎜ ⎟⎝ ⎠ 出現二正面一反面或一正面二反面的機 率為
2 3 2
1 1 3 2 2 8. C ⎛ ⎞ ⎛ ⎞ =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
那為什麼叫它為二項分配?反應較快的同學,應該很快就可以看出,上面我
們在求有幾次成功時,它一般項的長相跟我們高二在學二項式定理很像,這也是 他名字的由來。現在我們是考慮在n個試驗中,有 i 個成功, n i− 個失敗,如果 我們已經知道那些試驗是成功的,那它們的機率便是pi(1−p)n i−,但是n個試驗 中,可以選擇 i 個成功,故再乘以C 因此其一般項in. C pin i(1−p)n i−,i=0,1,", .n 且
0
(1 ) [ (1 )] 1 1.
n
n i n i n n
i i
C p p − p p
=
− = + − = =
∑ 也就是說這些就是所有的可能。接著我們
來看看二項分配的例子。
Example2.
擲一粒公正骰子 10 次, 試問恰得 3 個 1 點的機率為何?
Solution.
擲一粒公正骰子獲得 1 點的機率為1
6, 不是 1 點的機率為5 6,
所求
3 7
10 3
1 5 6 6 . C ⎛ ⎞ ⎛ ⎞
= ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
既然我們已經介紹過機率上期望值的定義,我們就實際來看看二項分配的期 望值吧!首先我們還是來看一個實際的例子。
Example3.
擲一粒公正骰子 5 次,試求出現 1 點次數之期望值。
Solution.
在解這個題目之前,我們看看有沒有直觀的看法,看出期望值的意義。回想一下,
我們在高二時,介紹到期望值的時候,我們有談到期望值有“平均"的概念在裡 面,如果我們今天把這個題目想成“丟骰子 5 次,平均有幾個 1 點"。相信很多 人就會回答:1 5
6⋅ = 次。也就是說,我們看平均每次丟到正面的比例是5 6 1 6, 共 丟了 5 次,所以平均而言是5
6次。恭喜你!這正好是正確的答案,事實上期望值 很多的題目也都可以這樣去計算。在數學的學習上,直觀的學習是很重要的。那 現在我們回過頭來,我們如何用數學去證明這個結果呢?
所求
5 0 5 1 4 2 3
5
5 5 5 5
0 1 2
0
1 5 1 5 1 5 1 5
0 1 2
6 6 6 6 6 6 6 6
k k
k k
kC C C C
μ −
=
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
=∑ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ = ⋅ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
3 2 4 1 5 0
5 5 5
3 4 5
1 5 1 5 1 5
3 4 5
6 6 6 6 6 6
C ⎛ ⎞ ⎛ ⎞ C ⎛ ⎞ ⎛ ⎞ C ⎛ ⎞ ⎛ ⎞ + ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
1 4 2 3 3 2 4 1 5 0
4 1 3 2 2 3 1 4
1 5 1 5 1 5 1 5 1 5
5 20 30 20 5
6 6 6 6 6 6 6 6 6 6
1 5 1 5 1 5 1 5 1
5 4 6 4
6 6 6 6 6 6 6 6 6
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
= ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
⎡⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
= ⋅ ⋅⎢⎜ ⎟⎢⎣⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ + ⋅⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠+ 5 1 5 4 5
6 6 6 6.
⎤⎥
⎥⎦
⎛ ⎞
= ⎜ + ⎟ =
⎝ ⎠
Note. 注意你對此期望值的解釋,這裡的解釋是,每個試驗進行時,丟 5 次銅板,
進行很多試驗之後,平均而言,出現了5
6次 1 點,在這裡每次試驗丟的總數是固 定的。(這個例子中是 5 次)
一般而言,對於一個二項試驗,若每次成功的機率為 ,p 失敗的機率為1−p, 每個試驗的次數為 n 次,則
○1 成功次數的期望值為μ =np.
○2 成功次數的標準差為σ = np(1−p)。(推衍過程可參考我寫的講義 Random Variable 中 Properties of Binomial Random Variable, 可自我的個人網頁
http://web.cc.ntnu.edu.tw/~494402345/中相關資源中下載)
我們在高二下時,我們有談到如果當n足夠大時,成功次數的機率分布會近 似於一個以期望值np 標準差為, np(1−p)的常態分配。由於此理論(中央極限定 理)已超過高中範圍,底下我們僅以圖示表示。
下列各圖,以黃色的直方圖代表二項分配的機率分布圖,紅色曲線為期近似 的常態分配,由圖可看出當試驗次數n越大時,二項分配會近似於常態分配,且 不論成功的機率 p 為何。
Note. 一般來說,我們通常會用常態去逼近二項分配,必須要滿足np(1−p) 10.≥ 也就是說如果他的變異數夠大的話,這會是一個良好的估計。
讓我們來看看,我們如何利用常態分配來計算二項分配的機率問題。
Example4.
擲一枚均勻的硬幣 100 次,試求出現正面次數介於 40 到 60 次(不含 40 與 60 次)間的機率。
Sol.
所求
59 100 100 41
1 1 2 2
k k
k k
C
−
=
⎛ ⎞ ⎛ ⎞
=∑ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ 我們會發現這個計算困難重重,還好的是現在有電
腦,可以輔助我們計算,但是依然是很麻煩。
我們改用當次數足夠大,且 1 1
(1 ) 100 25 10,
np −p = ⋅ ⋅ =2 2 ≥ 故其近似於常態分配。
二項分配的期望值 1
100 50, np 2
μ = = ⋅ = 標準差σ = 25= 5.
因此會近似於一個期望值為 50, 標準差為 5 的常態分配。
(40, 60)=(50 2 5, 50 2 5),− ⋅ + ⋅ 也就是說它落在μ兩個標準差內,由常態分配的理 論知道,此一區間發生的機率約為 0.95, 故擲一枚均勻硬幣 100 次,出現正面次 數介於 40 次到 60 次的機率約為 0.95.
Note. 有些書會談到需要連續校正,因為我們從直方圖畫連續的曲線圖,中間所
佔的面積可能會差 0.5 個單位,不過我們這裡只有粗略的估計,因此我們就不細 談,有興趣的同學可以自行參閱相關的書。