Why Probability and Statistics?

(1)

Dept of Stat & Fin

University of Science and Technology of China

1

Why Probability and Statistics?

----some examples

张伟平

zwp@ustc.edu.cn

(O) 3600565

部分摘录自 ---A Modern Introduction to Probability and Statistics:

Understanding Why and How ， Springer, 2005

(2)

Dept of Stat & Fin

简介：概率论和数理统计

2

Diagram showing the difference between statistics and probability. (Image by MIT OpenCourseWare.

Based on Gilbert, Norma. Statistics. W.B. Saunders Co., 1976.)

(3)

Dept of Stat & Fin

3

• 概率：随机现象的数量度量

• 统计：从样本推断总体。

总体样本

概率分布

统计分析

关键词：随机 , 数据

上半学期下半学期

课程安排

(4)

Dept of Stat & Fin

课程内容

• 概率部分

◦ 概率定义及其性质 ( 条件概率 , 独立性 )

◦ 随机变量及其分布 ( 一元 , 二元随机变量分布 , 数字特征 )

◦ 随机变量的收敛性

• 统计部分

◦ 总体与样本

◦ 参数估计 ( 点估计和区间估计 )

◦ 参数假设检验

◦ 拟合优度检验 ( 独立性检验 )

4

(5)

Dept of Stat & Fin

课程资源

• 课程主页 :

http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.ht m

• 论坛 : http://fisher.stat.ustc.edu.cn

• 爱课程网 :

http://www.icourses.cn/coursestatic/course_3068.html

• 成绩评定

35% 平时成绩 +65% 期末考试

5

(6)

Dept of Stat & Fin

Ex 1 电视收视率

 电视台只访问一部分观众，比如 1000 户观众，

那么在合肥约 200 万户人口，所以大约平均 2000 户才有一户被调查到。

 假设 200 万户中有 a 户收看指定节目，则收视率为 a/2000000

 调查机构随机调查 2000 户，其中若有 b 户收看指定节目，则由大数律知道

b/2000≈a/2000000

6

(7)

Dept of Stat & Fin

Ex2 重男轻女与人口膨胀

 假设某地重男轻女现象非常严重，所有父母都非要生男孩为止。但政府又怕这样会导致人口膨胀。所以有人提议：

“ 每对夫妇可以生育，直至有一名男孩

，之后必须绝育”^。

 这个提议引起激烈辩论：

7

(8)

Dept of Stat & Fin

(a) 通过该提议会不会导致人口膨胀？

i) 会导致家庭人口越来越多

ii) 有男孩的家庭不再继续增加人口，人口会减少

(b) 通过该提议会不会导致男多于女？

i) 每个家庭都必有男孩，这样会导致男多于女

ii) 很多家庭为了生男孩，导致女孩多于男孩

我们可以使用概率论方法来回答这些争论：

(a) 假设每对夫妇都是可以生育的， X 表示每

个家庭的子女数， p=1/2 为生男孩的概率，则

8

(9)

Dept of Stat & Fin

X 服从几何分布。于是每个家庭的平均子女数目为 EX=2 ，因此不会增加人口。

(b) 假设女孩子的数目为 G, 则 X=1+G ( 该提议的结果 ) ，所以 EX=1+EG, 所以

EG=1 ，所以该提议不会导致男多于女或者女多于男。

9

(10)

Dept of Stat & Fin

Ex3 谁先发球有区别吗？

 在如羽毛球、网球、排球等比赛中，发球方胜了才得 1 分，否则胜的一方只获得了发球权。这种规则公平吗？

 假设甲乙两人水平相当，甲发第一球，

胜了则的 1 分，输了则乙获得发球权；那方先得 N 分则取得胜利。假设没有终局前一分的平局规则。

10

(11)

Dept of Stat & Fin

• 以 N=9 为例，经过计算得到甲胜的概率为 0.5348…

• 可以证明，甲胜的概率为 0.5+ qN-1/2 这里 qN-1 为甲比乙 N-

1:N 的概率。

11

(12)

Dept of Stat & Fin

Ex4: 主办国优势

1932 － 1998 年冬奥会主

办国奖牌数和上一届奖牌数。

12

(13)

Dept of Stat & Fin

13

 美国在 1998 年日本冬奥会得 13 块奖牌， 2002 年 2 月冬奥会在美国盐湖城举行，预测其在 2002 年期望得多少？

 最终美国 2002 年作为主办国得到了 34 块，是个异常现象吗？

 2006 年冬奥会在意大利都灵举行， 2002 年意大利奖牌数为 12 ，预测其在 2006 年将获奖牌数目，给出 95 ％预测区间。

(14)

Dept of Stat & Fin

14

• 下图是东道主上届奖牌数目 vs 本届奖牌数目 ( 红点为拟合数目 ), 使用 Poisson 回归 ( 该模型拟合结果说明有主办国优势存在 ) 。

(15)

Dept of Stat & Fin

15

• 美国 1998 年得到 13 块， 2002 年作为东道主期望得到 16 块 ( 通过 Poisson 回归模型得到 ) 。

• 实际上美国得到 34 块，按历史规律此事件发生得概率仅为 0.000065 ，说明 2002 年美国冬奥会主办国得奖牌数目非常异常，主办国优势体现得尤其明显。

(16)

Dept of Stat & Fin

16

• 2002 年意大利得到 12 块，按 1998 年前的规

律， 2006 年期望个数为 14.7 个， 95% 置信区间为 [8,23]

• 但实际上，意大利 2006 年冬奥会作为东道主只获得了 11 块奖牌，甚至少于上一届的 12 块 ( 注意以前所有东道主的奖牌数目都高于上一届 ) ，可能性为 20%.

• 而美国 2006 年作为非东道主得到 26 块奖牌，说明美国 1998 年之后实力确实有大幅度提升！

(17)

Dept of Stat & Fin

Ex5: 主办国优势

 中国可能的金牌数 ?

17

(18)

Dept of Stat & Fin

模型:

拟合结果

所以北京奥运会的金牌数为 49.294,

95%置信区间为[41.05171, 57.50797].

18

e bx

a

y   

x y^  6.286 1.344

(19)

Dept of Stat & Fin

19

Ex6: Killer football

 Cardiovascular( 心藏血管 ) mortality in Dutch men during 1996 European football

championship: longitudinal population study, 2000 ， British Medical Journal ， 321:1552- 1554

 作者声称 6 月 22 号那场足球比赛对全国人口死亡率有着明显的影响！

(20)

Dept of Stat & Fin

20

 他们考虑的死亡包括心肌梗塞、中风、以及归因于过量饮酒和观看 6 月 22 日荷兰队和法国队足球赛 ( 荷兰队输了 ) 而产生的紧张压力所导致的死亡。

 作者主要通过下图来支持他们的结论！

(21)

Dept of Stat & Fin

21

中间的水平表示 6 月 17 到 6 月 27 的这段时间的平均死亡个数，上下两条线表示此平均个数的 95% 置信区间。对置信区间的解释是要特别小心的。

95% 置信区间

(22)

Dept of Stat & Fin

Ex7: 上帝粒子存在吗

 “ 上帝粒子”即希格斯 - 玻色子，理论上认为它应当是构成宇宙的最基本组成部件之一，但是它仍然有待实验观测证实。

科学家们提出的物理学标准模型预言了这种粒子的存在，其作用是解释为何其它粒子会拥有质量。如果证实上帝粒子的存在，将有助解释物质为何有质量。

22

(23)

Dept of Stat & Fin

•年 7 月 31 日， CERN 的 CMS 小组和 ATLAS 小组分别提交了新的侦测结果的论文，将这种疑似希格斯波色子的粒子的质量确定为 CMS 的 125.3 GeV/c²（统计误差： ±0.4 、系统误差： ±0.5 、统计显著性： 5.8 个标准差） ^[2]和 ATLAS 的 126.0 GeV/c²（统计误差： ±0.4 、系统误差： ±0.4 、统计显著性： 5.9 个标准差）即不存在的概率为 5.5 亿分之一

，按顶夸克的前例，这就是【发现粒子】！

23

(24)

Dept of Stat & Fin

24

Ex8: 身高的遗传

 E.S. Pearson 在 1893–1898 年间在英国收集了 n=1375 位 65 岁以下母亲和 18 岁以上女儿的身高数据 , Pearson and Lee (1903) 发表了此数据，

我们

以此数据来研究母亲身高和女儿身高之间的遗传关系

。

(25)

Dept of Stat & Fin

25

详细资料： http://mil.qianlong.com/4919/2003/09/21/42@1605800.htm

(26)

Dept of Stat & Fin

26

 使用回归得到

Dheight= 30.4869+0.5326*Mheight

 如果母亲的身高为 63.78 inches (162cm), 则女儿的身高预测值为 (163.7cm)

64.45613=30.4869+0.5326*63.78

进一步 , 预测的 95% 置信区间为 [152.3cm, 175.14cm]

(27)

Dept of Stat & Fin

27

Ex9: 统计与情报机构

 二战期间，有关德国战争物资生产能力的情报对盟军的作战计划的制定是非常重要的。

 战争早期用来估计德国产能的方法被证实是不适合的

 为得到德国产能的更可靠的估计，来自美国使馆的经济战争部和英国政府经济战争部的专家，对缴获的德军装备上的标记和序列号进行了分析

(28)

Dept of Stat & Fin

28

 每一个德军装备上都有一些印记，包括以下全部或部分信息：

标记人的名字和位置

生产日期

序列号

其他方面的各种信息，如商标、模具号、

浇铸号等等

(29)

Dept of Stat & Fin

29

 这些标记的目的是为了维持对质量标准检查的高效率以及对备件的控制

 这些信息给了盟军情报机构机会来了解德国工业产能

 第一个被分析的产品是在英国领空击落的德军飞机上的轮胎，以及在北非战场上缴获的德军供应库里飞机和车辆的轮胎

(30)

Dept of Stat & Fin

30

 每个轮胎上都有标记者的名字、序列号和由两个字母构成的生产日期

 这两个字母被推测为一个是代表生产的月份，一个是年份。因此代表月份的字母应该有 12 中变化，而代表年份的字母有 3-6 中变化

(31)

Dept of Stat & Fin

31

下表是四个厂家所使用的月份字母编码

(32)

Dept of Stat & Fin

32

 接下来对轮胎上的序列号按照每个生产商和生产日期分类记录

 具体的，每个月的序列号可以是从 1 到某个未知的大数 N ，而观察到的序列号是个子集

 问题就是基于收集到的序列号对每个生产商每个月的产量 N 进行估计

(33)

Dept of Stat & Fin

33

 收集到从 1939 到 1943 年中期，来自 5 个生产厂家的 1400 个轮胎，从而得到单个月的样本数字

 下表表示了 1943 年第一季度所有厂家的平均月

产量的估计值，以及战后来自军备部的统计数字。

与来自盟军情报机构的数字比较，估计的精度是值得赞赏的，而情报机构用别的方式估计的月产能是 90 0000 到 120 0000 ！

(34)

Dept of Stat & Fin

34

An Empirical Approach to Economic Intelligence in World War II Richard Ruggles, Henry Brodie, JASA, Vol. 42, No. 237 (Mar., 1947), pp. 72-91

(35)

Dept of Stat & Fin

35

Ex10: 光的速度

 1983 年“米”的定义被修改为 ---- 平面电 磁波 ( 光 ) 在“ 1/299792458 秒”的持续 时间内在真空中传播行程的长度。

 这实际上是定义了电磁波 ( 光 ) 的速度

！

(36)

Dept of Stat & Fin

36

 关于光的速度的争论是持续了上百年历史的。

 Albert Michelson 在 1879 年的 6 月和 7 月早期对以前的两个实验进行了重新设定，

并做了一系列的测量。

(37)

Dept of Stat & Fin

37

 光速测量的准则很简单，测量距离和时间。

为得到准确的结论，距离和时间的测量精度要求很高。

 考虑到光速的特性，要是测量一个很长的距离，则距离的精度能以保证；要是测量一个很短的时间，则时间很难准确测量。

(38)

Dept of Stat & Fin

38

 在 Michelson 的时代，光速已经知道大约是 300000 km/s ，因此他的目标是使此值更准确！

 下图表示了 Michelson 的实验装置

(39)

Dept of Stat & Fin

39

(40)

Dept of Stat & Fin

40

 因此需要测量四个量：

• Distance

• Radius

• Displacement

• Revolutions per seconds (rps)

 每个量的测量中都存在误差！单独的误差可能回严重影响最终的结果！

(41)

Dept of Stat & Fin

41

 Michelson 实验中 distance 大约是 2000 英尺，他用了名义上长度为 100 英尺的钢制尺子。仔细检查后发现实际长度是 100.006 英尺 ( 系统误差 ) 。他测量了 5 次，得到的值在 1984.94 到 1985.17 英尺之间，最后他用平均值表示“true distance” 值 ( 减少随机误差 )!

 其他的值都类似的确定！最终他的报告值 ( 真空中，需要转换 ) 为 299 944 +/- 51 km/s

(42)

Dept of Stat & Fin

42

 尽管 Michelson 很小心的测量，但是仍忽略了一些误差！

 现在的测量方法显示光在真空中的速度的 95% 置信区间为 299 944+/-15.5km/s!

http://en.wikipedia.org/wiki/Albert_Abraham_Michelson

(43)

Dept of Stat & Fin

43

Ex11: 蒙特卡罗方法

如何求不规则区域的面积？

(44)

Dept of Stat & Fin

44

• 随机地把 N 个点投入方形区域（面积 =1 ），落入不规则区域的个数为 n ，则不规则区域面积 S 可以用比率 n/N 逼近（ N 非常大）

n/N → S

• （统计方法）若不规则区域是一个湖。将 n 条鱼放到湖中，假设鱼均匀地游到各处，取面积为 a 的一个方形区域，其中的鱼的个数为 m ，则可以用 n/m×a 作为 S 的估计。

(45)

Dept of Stat & Fin

45

Ex12: Benford 定律

 随机取一个数，首位数字为 1 ， 2 ， ..,9 的可能性相同，概率为 1/9

 但很多生活中的数字，比如帐目数据，报纸上的数据却一般不符合如上规律 , 而是满足 Benford 定律

首位数

1 2 3 4 5 6 7 8 9

频率 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046

(46)

Dept of Stat & Fin

46

• Benford 定律是 Newcomb （ 1881 ）和 Benford （ 1938 ）独立发现的统计规律：

首位数是 k 的概率为

P( 首位数 =k)=log10(1+1/k) ， k=1, 2,..., 9 后来有人在一定条件下证明了其正确性。

• 应用：通过检查其首位数的分布判断会计账目数据的真实性。

(47)

Dept of Stat & Fin

47

• 例 . Standard & Poors (S&P) 的 500 个 Index 的首位数字的统计频数（ 1986.1.2 – 1995.12.29

）。该批数据是否满足 Benford 定律？

^{首位数 1} ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹

频数 735 432 273 266 200 175 169 148 126 期望数 760 445 315 245 200 169 146 129 116

--- 皮尔逊 (Pearson) 卡方检验。基本符合定律

。

(48)

Dept of Stat & Fin

48

More Amazing Applications of Probability and Statistics, visit

 http://www.intuitor.com/statistics/ or

 Search Google

 Read “How to lie with statistics”

 ……