• 沒有找到結果。

Why Probability and Statistics?

N/A
N/A
Protected

Academic year: 2021

Share "Why Probability and Statistics?"

Copied!
48
0
0

加載中.... (立即查看全文)

全文

(1)

Dept of Stat & Fin

University of Science and Technology of China

1

Why Probability and Statistics?

----some examples

张 伟 平

zwp@ustc.edu.cn

(O) 3600565

部分摘录自 ---A Modern Introduction to Probability and Statistics:

Understanding Why and How , Springer, 2005

(2)

Dept of Stat & Fin

简介:概率论和数理统计

2

Diagram showing the difference between statistics and probability. (Image by MIT OpenCourseWare.

Based on Gilbert, Norma. Statistics. W.B. Saunders Co., 1976.)

(3)

Dept of Stat & Fin

University of Science and Technology of China

3

概率:随机现象的数量度量

统计:从样本推断总体。

总体 样本

概率分布

统计分析

关键词:随机 , 数据

上半学期 下半学期

课程安排

(4)

Dept of Stat & Fin

课程内容

概率部分

概率定义及其性质 ( 条件概率 , 独立性 )

随机变量及其分布 ( 一元 , 二元随机变量分布 , 数字特征 )

随机变量的收敛性

• 统计部分

总体与样本

参数估计 ( 点估计和区间估计 )

参数假设检验

拟合优度检验 ( 独立性检验 )

4

(5)

Dept of Stat & Fin

课程资源

课程主页 :

http://staff.ustc.edu.cn/~zwp/teach/Prob-Stat/probstat.ht m

论坛 : http://fisher.stat.ustc.edu.cn

• 爱课程网 :

http://www.icourses.cn/coursestatic/course_3068.html

• 成绩评定

35% 平时成绩 +65% 期末考试

University of Science and Technology of China

5

(6)

Dept of Stat & Fin

Ex 1 电视收视率

电视台只访问一部分观众,比如 1000 户观众,

那么在合肥约 200 万户人口,所以大约平均 2000 户才有一户被调查到。

假设 200 万户中有 a 户收看指定节目,则收视 率为 a/2000000

调查机构随机调查 2000 户,其中若有 b 户收看 指定节目,则由大数律知道

b/2000≈a/2000000

6

(7)

Dept of Stat & Fin

Ex2 重男轻女与人口膨胀

假设某地重男轻女现象非常严重,所有 父母都非要生男孩为止。但政府又怕这 样会导致人口膨胀。所以有人提议:

“ 每对夫妇可以生育,直至有一名男孩

,之后必须绝育”

这个提议引起激烈辩论:

7

University of Science and Technology of China

(8)

Dept of Stat & Fin

(a) 通过该提议会不会导致人口膨胀?

i) 会导致家庭人口越来越多

ii) 有男孩的家庭不再继续增加人口,人口会减少

(b) 通过该提议会不会导致男多于女?

i) 每个家庭都必有男孩,这样会导致男多于女

ii) 很多家庭为了生男孩,导致女孩多于男孩

我们可以使用概率论方法来回答这些争论:

(a) 假设每对夫妇都是可以生育的, X 表示每

个家庭的子女数, p=1/2 为生男孩的概率,则

8

(9)

Dept of Stat & Fin

X 服从几何分布。于是每个家庭的平均子女 数目为 EX=2 ,因此不会增加人口。

(b) 假设女孩子的数目为 G, 则 X=1+G ( 该 提议的结果 ) ,所以 EX=1+EG, 所以

EG=1 ,所以该提议不会导致男多于女或者 女多于男。

University of Science and Technology of China

9

(10)

Dept of Stat & Fin

Ex3 谁先发球有区别吗?

在如羽毛球、网球、排球等比赛中,发 球方胜了才得 1 分,否则胜的一方只获得 了发球权。这种规则公平吗?

假设甲乙两人水平相当,甲发第一球,

胜了则的 1 分,输了则乙获得发球权;那 方先得 N 分则取得胜利。假设没有终局前 一分的平局规则。

10

(11)

Dept of Stat & Fin

以 N=9 为例,经过 计算得到甲胜的概 率为 0.5348…

可以证明,甲胜的 概率为 0.5+ qN-1/2 这里 qN-1 为甲比乙 N-

1:N 的概率。

University of Science and Technology of China

11

(12)

Dept of Stat & Fin

Ex4: 主办国优势

1932 - 1998 年冬奥会主

办国奖牌数 和上一届奖 牌数。

12

(13)

Dept of Stat & Fin

University of Science and Technology of China

13

美国在 1998 年日本冬奥会得 13 块奖牌, 2002 年 2 月冬 奥会在美国盐湖城举行,预测其在 2002 年期望得多少?

最终美国 2002 年作为主办国得到了 34 块,是个异常现 象吗?

2006 年冬奥会在意大利都灵举行, 2002 年意大利奖牌 数为 12 ,预测其在 2006 年将获奖牌数目,给出 95 %预 测区间。

(14)

Dept of Stat & Fin

14

下图是东道主上届奖牌数目 vs 本届奖牌数目 ( 红 点为拟合数目 ), 使用 Poisson 回归 ( 该模型拟合 结果说明有主办国优势存在 ) 。

(15)

Dept of Stat & Fin

University of Science and Technology of China

15

美国 1998 年得到 13 块, 2002 年作为东道主期望得到 16 块 ( 通过 Poisson 回归模型得到 ) 。

实际上美国得到 34 块,按历史规律此事件发生得概率 仅为 0.000065 ,说明 2002 年美国冬奥会主办国得奖牌 数目非常异常,主办国优势体现得尤其明显。

(16)

Dept of Stat & Fin

16

2002 年意大利得到 12 块,按 1998 年前的规

律, 2006 年期望个数为 14.7 个, 95% 置信区间为 [8,23]

但实际上,意大利 2006 年冬奥会作为东道主只获得了 11 块奖牌,甚至少于上一届的 12 块 ( 注意以前所有东道 主的奖牌数目都高于上一届 ) ,可能性为 20%.

而美国 2006 年作为非东道主得到 26 块奖牌,说明美国 1998 年之后实力确实有大幅度提升!

(17)

Dept of Stat & Fin

Ex5: 主办国优势

中国可能的金牌数 ?

17

University of Science and Technology of China

(18)

Dept of Stat & Fin

模型:

拟合结果

所以北京奥运会的 金牌数为 49.294,

95%置信区间为[41.05171, 57.50797].

18

e bx

a

y   

x y 6.286 1.344

(19)

Dept of Stat & Fin

19

University of Science and Technology of China

Ex6: Killer football

Cardiovascular( 心藏血管 ) mortality in Dutch men during 1996 European football

championship: longitudinal population study, 2000 , British Medical Journal , 321:1552- 1554

作者声称 6 月 22 号那场足球比赛对全 国人口死亡率有着明显的影响!

(20)

Dept of Stat & Fin

20

他们考虑的死亡包括心肌梗塞、中风、以 及归因于过量饮酒和观看 6 月 22 日荷兰队 和法国队足球赛 ( 荷兰队输了 ) 而产生的紧 张压力所导致的死亡。

作者主要通过下图来支持他们的结论!

(21)

Dept of Stat & Fin

University of Science and Technology of China

21

中间的水平表示 6 月 17 到 6 月 27 的这段时间的平均死亡个数,上下两条线 表示此平均个数的 95% 置信区间。对置信区间的解释是要特别小心的。

95% 置信区间

(22)

Dept of Stat & Fin

Ex7: 上帝粒子存在吗

“ 上帝粒子”即希格斯 - 玻色子,理 论上认为它应当是构成宇宙的最 基本组成部件之一,但是它仍然有 待实验观测证实。

科学家们提出的物理学标准模型预言了这种粒子的存 在,其作用是解释为何其它粒子会拥有质量。如果证 实上帝粒子的存在,将有助解释物质为何有质量。

22

(23)

Dept of Stat & Fin

年 7 月 31 日, CERN 的 CMS 小组和 ATLAS 小组分别提 交了新的侦测结果的论文,将这种疑似希格斯波色子的粒子 的质量确定为 CMS 的 125.3 GeV/c2(统计误差: ±0.4 、系 统误差: ±0.5 、统计显著性: 5.8 个标准差) [2]和 ATLAS 的 126.0 GeV/c2(统计误差: ±0.4 、系统误差: ±0.4 、统 计显著性: 5.9 个标准差)即不存在的概率为 5.5 亿分之一

,按顶夸克的前例,这就是【发现粒子】!

University of Science and Technology of China

23

(24)

Dept of Stat & Fin

24

Ex8: 身高的遗传

E.S. Pearson 在 1893–1898 年间在英国收集了 n=1375 位 65 岁以下母亲和 18 岁以上女儿的身高 数据 , Pearson and Lee (1903) 发表了此数据,

我们

以此数据来研究母亲身高和女儿身高之间的遗传关系

(25)

Dept of Stat & Fin

University of Science and Technology of China

25

详细资料: http://mil.qianlong.com/4919/2003/09/21/42@1605800.htm

(26)

Dept of Stat & Fin

26

使用回归得到

Dheight= 30.4869+0.5326*Mheight

如果母亲的身高为 63.78 inches (162cm), 则女儿的身高预测值为 (163.7cm)

64.45613=30.4869+0.5326*63.78

进一步 , 预测的 95% 置信区间为 [152.3cm, 175.14cm]

(27)

Dept of Stat & Fin

27

University of Science and Technology of China

Ex9: 统计与情报机构

二战期间,有关德国战争物资生产能力的情报 对盟军的作战计划的制定是非常重要的。

战争早期用来估计德国产能的方法被证实是不 适合的

为得到德国产能的更可靠的估计,来自美国 使馆的经济战争部和英国政府经济战争部的专 家,对缴获的德军装备上的标记和序列号进行 了分析

(28)

Dept of Stat & Fin

28

每一个德军装备上都有一些印记,包括以 下全部或部分信息:

标记人的名字和位置

生产日期

序列号

其他方面的各种信息,如商标、模具号、

浇铸号等等

(29)

Dept of Stat & Fin

University of Science and Technology of China

29

这些标记的目的是为了维持对质量标准检 查的高效率以及对备件的控制

这些信息给了盟军情报机构机会来了解德 国工业产能

第一个被分析的产品是在英国领空击落的 德军飞机上的轮胎,以及在北非战场上缴 获的德军供应库里飞机和车辆的轮胎

(30)

Dept of Stat & Fin

30

每个轮胎上都有标记者的名字、序列号和 由两个字母构成的生产日期

这两个字母被推测为一个是代表生产的月 份,一个是年份。因此代表月份的字母应 该有 12 中变化,而代表年份的字母有 3-6 中变化

(31)

Dept of Stat & Fin

University of Science and Technology of China

31

下表是四个厂家所使用的月份字母编码

(32)

Dept of Stat & Fin

32

接下来对轮胎上的序列号按照每个生产商 和生产日期分类记录

具体的,每个月的序列号可以是从 1 到某 个未知的大数 N ,而观察到的序列号是个 子集

问题就是基于收集到的序列号对每个生产 商每个月的产量 N 进行估计

(33)

Dept of Stat & Fin

University of Science and Technology of China

33

收集到从 1939 到 1943 年中期,来自 5 个生产厂 家的 1400 个轮胎,从而得到单个月的样本数字

下表表示了 1943 年第一季度所有厂家的平均月

产量的估计值,以及战后来自军备部的统计数字。

与来自盟军情报机构的数字比较,估计的精度是 值得赞赏的,而情报机构用别的方式估计的月产 能是 90 0000 到 120 0000 !

(34)

Dept of Stat & Fin

34

An Empirical Approach to Economic Intelligence in World War II Richard Ruggles, Henry Brodie, JASA, Vol. 42, No. 237 (Mar., 1947), pp. 72-91

(35)

Dept of Stat & Fin

35

University of Science and Technology of China

Ex10: 光的速度

1983 年“米”的定义被修改为 ---- 平面电 磁波 ( 光 ) 在“ 1/299792458 秒”的持续 时间内在真空中传播行程的长度。

这实际上是定义了电磁波 ( 光 ) 的速度

(36)

Dept of Stat & Fin

36

关于光的速度的争论是持续了上百年历史 的。

Albert Michelson 在 1879 年的 6 月和 7 月 早期对以前的两个实验进行了重新设定,

并做了一系列的测量。

(37)

Dept of Stat & Fin

University of Science and Technology of China

37

光速测量的准则很简单,测量距离和时间。

为得到准确的结论,距离和时间的测量精 度要求很高。

考虑到光速的特性,要是测量一个很长的 距离,则距离的精度能以保证;要是测量 一个很短的时间,则时间很难准确测量。

(38)

Dept of Stat & Fin

38

在 Michelson 的时代,光速已经知道大约 是 300000 km/s ,因此他的目标是使此值 更准确!

下图表示了 Michelson 的实验装置

(39)

Dept of Stat & Fin

University of Science and Technology of China

39

(40)

Dept of Stat & Fin

40

因此需要测量四个量:

• Distance

• Radius

• Displacement

• Revolutions per seconds (rps)

每个量的测量中都存在误差!单独的误差 可能回严重影响最终的结果!

(41)

Dept of Stat & Fin

University of Science and Technology of China

41

Michelson 实验中 distance 大约是 2000 英 尺,他用了名义上长度为 100 英尺的钢制尺 子。仔细检查后发现实际长度是 100.006 英 尺 ( 系统误差 ) 。他测量了 5 次,得到的值 在 1984.94 到 1985.17 英尺之间,最后他用 平均值表示“true distance” 值 ( 减少随机误 差 )!

其他的值都类似的确定!最终他的报告值 ( 真空中,需要转换 ) 为 299 944 +/- 51 km/s

(42)

Dept of Stat & Fin

42

尽管 Michelson 很小心的测量,但是仍忽 略了一些误差!

现在的测量方法显示光在真空中的速度的 95% 置信区间为 299 944+/-15.5km/s!

http://en.wikipedia.org/wiki/Albert_Abraham_Michelson

(43)

Dept of Stat & Fin

43

University of Science and Technology of China

Ex11: 蒙特卡罗方法

如何求不规则区域的面积?

(44)

Dept of Stat & Fin

44

随机地把 N 个点投入方形区域(面积 =1 ),落入不规 则区域的个数为 n ,则不规则区域面积 S 可以用比率 n/N 逼近 ( N 非常大)

n/N → S

(统计方法)若不规则区域是一个湖。将 n 条鱼放到湖 中,假设鱼均匀地游到各处, 取面积为 a 的一个方形区 域,其中的鱼的个数为 m ,则可以用 n/m×a 作为 S 的 估计。

(45)

Dept of Stat & Fin

45

University of Science and Technology of China

Ex12: Benford 定律

随机取一个数,首位数字为 1 , 2 , ..,9 的可能性相同,概率为 1/9

但很多生活中的数字,比如帐目数据,报 纸上的数据却一般不符合如上规律 , 而是 满足 Benford 定律

1 2 3 4 5 6 7 8 9

0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046

(46)

Dept of Stat & Fin

46

Benford 定律是 Newcomb ( 1881 )和 Benford ( 1938 )独立发现的统计规律:

首位数是 k 的概率为

P( 首位数 =k)=log10(1+1/k) , k=1, 2,..., 9 后来有人在一定条件下证明了其正确性。

应用: 通过检查其首位数的分布判断会计账目数据 的真实性。

(47)

Dept of Stat & Fin

University of Science and Technology of China

47

例 . Standard & Poors (S&P) 的 500 个 Index 的 首位数字的统计频数( 1986.1.2 – 1995.12.29

)。该批数据是否满足 Benford 定律?

首位数 1 2 3 4 5 6 7 8 9

频数 735 432 273 266 200 175 169 148 126 期望数 760 445 315 245 200 169 146 129 116

--- 皮尔逊 (Pearson) 卡方检验。基本符合定律

(48)

Dept of Stat & Fin

48

More Amazing Applications of Probability and Statistics, visit

http://www.intuitor.com/statistics/ or

Search Google

Read “How to lie with statistics”

……

參考文獻

相關文件

Students in this Learning Unit should recognise the concepts of sample statistics and population parameters and their relationships:. Population Parameter

Achievement growth in children with learning difficulties in mathematics: Findings of a two-year longitudinal study... Designing vocabulary instructio n

Infusing higher-order thinking and learning to learn into content instruction: A case study of secondary computing studies in Scotland. Critical thinking: What it is and why

Figures include ordinary secondary day schools, but not special schools and secondary day courses operated by private schools offering tutorial, vocational and adult education

無國界記者組織(國際新聞自由監督團體)在本月 17 日公布一項針對全球記者的 最新調查,其結果顯示,今年全球記者共有

5/22 Network Address Translation (NAT)
 and Virtual Private Network (VPN). 6/3

REITs 起源于上世纪 60 年代的美国,目前全球 REITs 市场规模近 2 万亿美元,其中美

推 荐 期 刊 : Journal of Cross-cultural Psychology, Journal of International Business Studies, Management and Organization Review