Dept of Stat & Fin
University of Science and Technology of China
1
Why Probability and Statistics?
----some examples
张 伟 平
zwp@ustc.edu.cn
(O) 3600565
部分摘录自 ---A Modern Introduction to Probability and Statistics:
Understanding Why and How , Springer, 2005
Dept of Stat & Fin
简介:概率论和数理统计
2
Diagram showing the difference between statistics and probability. (Image by MIT OpenCourseWare.
Based on Gilbert, Norma. Statistics. W.B. Saunders Co., 1976.)
Dept of Stat & Fin
University of Science and Technology of China
3
• 概率:随机现象的数量度量
• 统计:从样本推断总体。
总体 样本
概率分布
统计分析
关键词:随机 , 数据
上半学期 下半学期
课程安排
Dept of Stat & Fin
课程内容
• 概率部分
◦ 概率定义及其性质 ( 条件概率 , 独立性 )
◦ 随机变量及其分布 ( 一元 , 二元随机变量分布 , 数字特征 )
◦ 随机变量的收敛性
• 统计部分
◦ 总体与样本
◦ 参数估计 ( 点估计和区间估计 )
◦ 参数假设检验
◦ 拟合优度检验 ( 独立性检验 )
4
Dept of Stat & Fin
课程资源
• 课程主页 :
http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.ht m
• 论坛 : http://fisher.stat.ustc.edu.cn
• 爱课程网 :
http://www.icourses.cn/coursestatic/course_3068.html
• 成绩评定
35% 平时成绩 +65% 期末考试
University of Science and Technology of China
5
Dept of Stat & Fin
Ex 1 电视收视率
电视台只访问一部分观众,比如 1000 户观众,
那么在合肥约 200 万户人口,所以大约平均 2000 户才有一户被调查到。
假设 200 万户中有 a 户收看指定节目,则收视 率为 a/2000000
调查机构随机调查 2000 户,其中若有 b 户收看 指定节目,则由大数律知道
b/2000≈a/2000000
6
Dept of Stat & Fin
Ex2 重男轻女与人口膨胀
假设某地重男轻女现象非常严重,所有 父母都非要生男孩为止。但政府又怕这 样会导致人口膨胀。所以有人提议:
“ 每对夫妇可以生育,直至有一名男孩
,之后必须绝育”。
这个提议引起激烈辩论:
7
University of Science and Technology of China
Dept of Stat & Fin
(a) 通过该提议会不会导致人口膨胀?
i) 会导致家庭人口越来越多
ii) 有男孩的家庭不再继续增加人口,人口会减少
(b) 通过该提议会不会导致男多于女?
i) 每个家庭都必有男孩,这样会导致男多于女
ii) 很多家庭为了生男孩,导致女孩多于男孩
我们可以使用概率论方法来回答这些争论:
(a) 假设每对夫妇都是可以生育的, X 表示每
个家庭的子女数, p=1/2 为生男孩的概率,则
8
Dept of Stat & Fin
X 服从几何分布。于是每个家庭的平均子女 数目为 EX=2 ,因此不会增加人口。
(b) 假设女孩子的数目为 G, 则 X=1+G ( 该 提议的结果 ) ,所以 EX=1+EG, 所以
EG=1 ,所以该提议不会导致男多于女或者 女多于男。
University of Science and Technology of China
9
Dept of Stat & Fin
Ex3 谁先发球有区别吗?
在如羽毛球、网球、排球等比赛中,发 球方胜了才得 1 分,否则胜的一方只获得 了发球权。这种规则公平吗?
假设甲乙两人水平相当,甲发第一球,
胜了则的 1 分,输了则乙获得发球权;那 方先得 N 分则取得胜利。假设没有终局前 一分的平局规则。
10
Dept of Stat & Fin
• 以 N=9 为例,经过 计算得到甲胜的概 率为 0.5348…
• 可以证明,甲胜的 概率为 0.5+ qN-1/2 这里 qN-1 为甲比乙 N-
1:N 的概率。
University of Science and Technology of China
11
Dept of Stat & Fin
Ex4: 主办国优势
1932 - 1998 年冬奥会主
办国奖牌数 和上一届奖 牌数。
12
Dept of Stat & Fin
University of Science and Technology of China
13
美国在 1998 年日本冬奥会得 13 块奖牌, 2002 年 2 月冬 奥会在美国盐湖城举行,预测其在 2002 年期望得多少?
最终美国 2002 年作为主办国得到了 34 块,是个异常现 象吗?
2006 年冬奥会在意大利都灵举行, 2002 年意大利奖牌 数为 12 ,预测其在 2006 年将获奖牌数目,给出 95 %预 测区间。
Dept of Stat & Fin
14
• 下图是东道主上届奖牌数目 vs 本届奖牌数目 ( 红 点为拟合数目 ), 使用 Poisson 回归 ( 该模型拟合 结果说明有主办国优势存在 ) 。
Dept of Stat & Fin
University of Science and Technology of China
15
• 美国 1998 年得到 13 块, 2002 年作为东道主期望得到 16 块 ( 通过 Poisson 回归模型得到 ) 。
• 实际上美国得到 34 块,按历史规律此事件发生得概率 仅为 0.000065 ,说明 2002 年美国冬奥会主办国得奖牌 数目非常异常,主办国优势体现得尤其明显。
Dept of Stat & Fin
16
• 2002 年意大利得到 12 块,按 1998 年前的规
律, 2006 年期望个数为 14.7 个, 95% 置信区间为 [8,23]
• 但实际上,意大利 2006 年冬奥会作为东道主只获得了 11 块奖牌,甚至少于上一届的 12 块 ( 注意以前所有东道 主的奖牌数目都高于上一届 ) ,可能性为 20%.
• 而美国 2006 年作为非东道主得到 26 块奖牌,说明美国 1998 年之后实力确实有大幅度提升!
Dept of Stat & Fin
Ex5: 主办国优势
中国可能的金牌数 ?
17
University of Science and Technology of China
Dept of Stat & Fin
模型:
拟合结果
所以北京奥运会的 金牌数为 49.294,
95%置信区间为[41.05171, 57.50797].
18
e bx
a
y
x y 6.286 1.344
Dept of Stat & Fin
19
University of Science and Technology of China
Ex6: Killer football
Cardiovascular( 心藏血管 ) mortality in Dutch men during 1996 European football
championship: longitudinal population study, 2000 , British Medical Journal , 321:1552- 1554
作者声称 6 月 22 号那场足球比赛对全 国人口死亡率有着明显的影响!
Dept of Stat & Fin
20
他们考虑的死亡包括心肌梗塞、中风、以 及归因于过量饮酒和观看 6 月 22 日荷兰队 和法国队足球赛 ( 荷兰队输了 ) 而产生的紧 张压力所导致的死亡。
作者主要通过下图来支持他们的结论!
Dept of Stat & Fin
University of Science and Technology of China
21
中间的水平表示 6 月 17 到 6 月 27 的这段时间的平均死亡个数,上下两条线 表示此平均个数的 95% 置信区间。对置信区间的解释是要特别小心的。
95% 置信区间
Dept of Stat & Fin
Ex7: 上帝粒子存在吗
“ 上帝粒子”即希格斯 - 玻色子,理 论上认为它应当是构成宇宙的最 基本组成部件之一,但是它仍然有 待实验观测证实。
科学家们提出的物理学标准模型预言了这种粒子的存 在,其作用是解释为何其它粒子会拥有质量。如果证 实上帝粒子的存在,将有助解释物质为何有质量。
22
Dept of Stat & Fin
•年 7 月 31 日, CERN 的 CMS 小组和 ATLAS 小组分别提 交了新的侦测结果的论文,将这种疑似希格斯波色子的粒子 的质量确定为 CMS 的 125.3 GeV/c2(统计误差: ±0.4 、系 统误差: ±0.5 、统计显著性: 5.8 个标准差) [2]和 ATLAS 的 126.0 GeV/c2(统计误差: ±0.4 、系统误差: ±0.4 、统 计显著性: 5.9 个标准差)即不存在的概率为 5.5 亿分之一
,按顶夸克的前例,这就是【发现粒子】!
University of Science and Technology of China
23
Dept of Stat & Fin
24
Ex8: 身高的遗传
E.S. Pearson 在 1893–1898 年间在英国收集了 n=1375 位 65 岁以下母亲和 18 岁以上女儿的身高 数据 , Pearson and Lee (1903) 发表了此数据,
我们
以此数据来研究母亲身高和女儿身高之间的遗传关系
。
Dept of Stat & Fin
University of Science and Technology of China
25
详细资料: http://mil.qianlong.com/4919/2003/09/21/42@1605800.htm
Dept of Stat & Fin
26
使用回归得到
Dheight= 30.4869+0.5326*Mheight
如果母亲的身高为 63.78 inches (162cm), 则女儿的身高预测值为 (163.7cm)
64.45613=30.4869+0.5326*63.78
进一步 , 预测的 95% 置信区间为 [152.3cm, 175.14cm]
Dept of Stat & Fin
27
University of Science and Technology of China
Ex9: 统计与情报机构
二战期间,有关德国战争物资生产能力的情报 对盟军的作战计划的制定是非常重要的。
战争早期用来估计德国产能的方法被证实是不 适合的
为得到德国产能的更可靠的估计,来自美国 使馆的经济战争部和英国政府经济战争部的专 家,对缴获的德军装备上的标记和序列号进行 了分析
Dept of Stat & Fin
28
每一个德军装备上都有一些印记,包括以 下全部或部分信息:
标记人的名字和位置
生产日期
序列号
其他方面的各种信息,如商标、模具号、
浇铸号等等
Dept of Stat & Fin
University of Science and Technology of China
29
这些标记的目的是为了维持对质量标准检 查的高效率以及对备件的控制
这些信息给了盟军情报机构机会来了解德 国工业产能
第一个被分析的产品是在英国领空击落的 德军飞机上的轮胎,以及在北非战场上缴 获的德军供应库里飞机和车辆的轮胎
Dept of Stat & Fin
30
每个轮胎上都有标记者的名字、序列号和 由两个字母构成的生产日期
这两个字母被推测为一个是代表生产的月 份,一个是年份。因此代表月份的字母应 该有 12 中变化,而代表年份的字母有 3-6 中变化
Dept of Stat & Fin
University of Science and Technology of China
31
下表是四个厂家所使用的月份字母编码
Dept of Stat & Fin
32
接下来对轮胎上的序列号按照每个生产商 和生产日期分类记录
具体的,每个月的序列号可以是从 1 到某 个未知的大数 N ,而观察到的序列号是个 子集
问题就是基于收集到的序列号对每个生产 商每个月的产量 N 进行估计
Dept of Stat & Fin
University of Science and Technology of China
33
收集到从 1939 到 1943 年中期,来自 5 个生产厂 家的 1400 个轮胎,从而得到单个月的样本数字
下表表示了 1943 年第一季度所有厂家的平均月
产量的估计值,以及战后来自军备部的统计数字。
与来自盟军情报机构的数字比较,估计的精度是 值得赞赏的,而情报机构用别的方式估计的月产 能是 90 0000 到 120 0000 !
Dept of Stat & Fin
34
An Empirical Approach to Economic Intelligence in World War II Richard Ruggles, Henry Brodie, JASA, Vol. 42, No. 237 (Mar., 1947), pp. 72-91
Dept of Stat & Fin
35
University of Science and Technology of China
Ex10: 光的速度
1983 年“米”的定义被修改为 ---- 平面电 磁波 ( 光 ) 在“ 1/299792458 秒”的持续 时间内在真空中传播行程的长度。
这实际上是定义了电磁波 ( 光 ) 的速度
!
Dept of Stat & Fin
36
关于光的速度的争论是持续了上百年历史 的。
Albert Michelson 在 1879 年的 6 月和 7 月 早期对以前的两个实验进行了重新设定,
并做了一系列的测量。
Dept of Stat & Fin
University of Science and Technology of China
37
光速测量的准则很简单,测量距离和时间。
为得到准确的结论,距离和时间的测量精 度要求很高。
考虑到光速的特性,要是测量一个很长的 距离,则距离的精度能以保证;要是测量 一个很短的时间,则时间很难准确测量。
Dept of Stat & Fin
38
在 Michelson 的时代,光速已经知道大约 是 300000 km/s ,因此他的目标是使此值 更准确!
下图表示了 Michelson 的实验装置
Dept of Stat & Fin
University of Science and Technology of China
39
Dept of Stat & Fin
40
因此需要测量四个量:
• Distance
• Radius
• Displacement
• Revolutions per seconds (rps)
每个量的测量中都存在误差!单独的误差 可能回严重影响最终的结果!
Dept of Stat & Fin
University of Science and Technology of China
41
Michelson 实验中 distance 大约是 2000 英 尺,他用了名义上长度为 100 英尺的钢制尺 子。仔细检查后发现实际长度是 100.006 英 尺 ( 系统误差 ) 。他测量了 5 次,得到的值 在 1984.94 到 1985.17 英尺之间,最后他用 平均值表示“true distance” 值 ( 减少随机误 差 )!
其他的值都类似的确定!最终他的报告值 ( 真空中,需要转换 ) 为 299 944 +/- 51 km/s
Dept of Stat & Fin
42
尽管 Michelson 很小心的测量,但是仍忽 略了一些误差!
现在的测量方法显示光在真空中的速度的 95% 置信区间为 299 944+/-15.5km/s!
http://en.wikipedia.org/wiki/Albert_Abraham_Michelson
Dept of Stat & Fin
43
University of Science and Technology of China
Ex11: 蒙特卡罗方法
如何求不规则区域的面积?
Dept of Stat & Fin
44
• 随机地把 N 个点投入方形区域(面积 =1 ),落入不规 则区域的个数为 n ,则不规则区域面积 S 可以用比率 n/N 逼近 ( N 非常大)
n/N → S
• (统计方法)若不规则区域是一个湖。将 n 条鱼放到湖 中,假设鱼均匀地游到各处, 取面积为 a 的一个方形区 域,其中的鱼的个数为 m ,则可以用 n/m×a 作为 S 的 估计。
Dept of Stat & Fin
45
University of Science and Technology of China
Ex12: Benford 定律
随机取一个数,首位数字为 1 , 2 , ..,9 的可能性相同,概率为 1/9
但很多生活中的数字,比如帐目数据,报 纸上的数据却一般不符合如上规律 , 而是 满足 Benford 定律
首 位数
1 2 3 4 5 6 7 8 9
频率 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046
Dept of Stat & Fin
46
• Benford 定律是 Newcomb ( 1881 )和 Benford ( 1938 )独立发现的统计规律:
首位数是 k 的概率为
P( 首位数 =k)=log10(1+1/k) , k=1, 2,..., 9 后来有人在一定条件下证明了其正确性。
• 应用: 通过检查其首位数的分布判断会计账目数据 的真实性。
Dept of Stat & Fin
University of Science and Technology of China
47
• 例 . Standard & Poors (S&P) 的 500 个 Index 的 首位数字的统计频数( 1986.1.2 – 1995.12.29
)。该批数据是否满足 Benford 定律?
首位数 1 2 3 4 5 6 7 8 9
频数 735 432 273 266 200 175 169 148 126 期望数 760 445 315 245 200 169 146 129 116
--- 皮尔逊 (Pearson) 卡方检验。基本符合定律
。
Dept of Stat & Fin
48
More Amazing Applications of Probability and Statistics, visit
http://www.intuitor.com/statistics/ or
Search Google
Read “How to lie with statistics”
……