第六章 统计量与抽样分布
随机样本与统计量
分布 t 分布 F 分布
正态总体下的抽样分布
2
数理统计
是一门以数据为基础的学科 , 可以定义为 收集数据 , 分析数据和由数据得出结论的一组概念、原则和方法
。
例如:若规定灯泡寿命低于 1000 小时者为次品,如何确 定次品率?由于灯泡寿命试验是破坏性试验,不可能把整 批灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验
,以样本的信息来推断总体的信息,这是数理统计研究的 问题。
2
6.1 随机样本与统计量
总体:研究对象的全体;
个体:总体中的成员;
总体的容量:总体中包含的个体数;
有限总体:容量有限的总体;
无限总体:容量无限的总体,通常将容量非
常大的总体也按无限总体处理。
例: 1 )了解某校“大学生的月消费水 平” 。总体是该校大学生全体。这是一 个有限总体,每个大学生有许多指标,
我们关注的是学生“过去 6 个月平均每 月的花费”这一指标。
4
2 )了解某城市的空气质量情况,调查 该城市的 PM2.5 值。这是一个无限总 体,描述空气质量有许多指标,而我们 仅关心 PM2.5 值。
3 )研究某种药物在人体中的吸收情况。
这是一个有限总体,但数量非常巨大,
我们常把它看出无限总体。
6
为了采用数理统计方法进行分析,首先要收集 数据,数据收集方法一般有两种。
( 1 )通过调查、记录收集数据。如为了调查大学 生“过去 6 个月平均每月的花费” ,可以进行问卷调 查;要了解 PM2.5 值,需要在城市设立若干 PM2.5 监测站点,定时收集数据。
( 2 )通过实验收集数据。如为了了解药物吸收情 况,要征集若干志愿者,把他们分成若干组,观察 他们服药后不同时间点药物含量数据。
关于调查数据和实验数据的收集可以根据数
据本身的特点有多种不同的方法和设计,有专门的
课程讲授,这里不作详细介绍。
总体的某个指标 X, 对于不同的个 体来说有不同的取值 , 这些取值构 成一个分布 , 因此 X 可以看成一
个随机变量 . 有时候就把 X 称为
总体 . 假设 X 的分布函数为 F(x),
也称 F(x) 为总体 .
数理统计主要任务是从总体中抽取 一部分个体 , 根据这部分个体的数 据对总体分布给出推断 . 被抽取的 部分个体叫做总体的一个样本 .
8
随机样本:从总体中随机地取 n 个个体 , 称为 一个随机样本。
简单随机样本:满足以下两个条件的随机样本
(X1,X2,…,Xn) 称为容量是 n 的简单随机样本。
1.
代表性 : 每个 X
i与 X 同分布;
2.
独立性 :
X1,X2,…,Xn是相互独立的随机变量。
[ 说明 ] :后面提到的样本均指简单随机样本。
[ 注意 ] :一个容量为 n 的样本
是指 n 个独立与总体分布相同的随机变量。
一旦对样本进行观察,得到实际数值
称为样本观察值(或样本值)。
两次观察,样本值可能是不同的。
1
, ,
2 nx x x
1
,
2,
nX X X
10
如何取得的样本才称是简单随机样本 ?
对于有限总体 , 采用放回抽样就能得到简
单随机样本 .
但当总体容量很大的时候 , 放回抽样有时
候很不方便 , 因此在实际中当总体容量比较大时 , 通常将不放回抽样所得到的样本近似当作简单随 机样本来处理 .
对于无限总体 , 一般采取不放回抽样 .
12
( 88 , 8
8 ) ( 88 , 7
5 ) ( 88 , 7
0 ) ( 88 , 6 3 )
( 75 , 8
8 ) ( 75 , 7
5 ) ( 75 , 7
0 ) ( 75 , 6 3 )
( 70 , 8
8 ) ( 70 , 7
5 ) ( 70 , 7
0 ) ( 70 , 6 3 )
( 63 , 8
8 ) ( 63 , 7
5 ) ( 63 , 7
0 ) ( 63 , 6 3 )
例 1.1 有 4 个学生参加《概率论与数理统计》
课程考试,成绩分别为 88,75,70,63.
现从中抽取容量为 2 的样本,列出
全部的样本 .
答:共有 16 个样本,分别为:
统计量:样本的不含任何未知参数的函数。
常用统计量:设( X
1,X2,…,Xn)为取自总体 X 的简单随机样本。常用的统计量如下:
1
1. 1 n i
i
X X
n
样本均值
1
1
3. 1 1, 2,
1 ( ) 1, 2,
n k
k i
i
n k
k i
i
k A X k
n
k B X X k
n
样样样样样样
样样样样样
2 2
1
2. 1 ( ) ,
1
n i i
S X X S
n
样本方差为样本标准差1
2
2 2
, , , ,
( ) , ( ) ( ) [( ) ],
3 ( ) [( ) ]
n
k k
k k
k k
X X X
E X Var X E X E X
X S
A E X B E X
样 样 样 样 样 样 样 样 样 样 样 样
样 样 样 样 样 样 样 样 样 样
样 样 样 样 样 1样 样 样 样 2样 样 样 样 样 样 样 样 4样 样
样 样 样 样 样
[ 思考题 ] :
答:不对。前者是随机变量,观察两次得到 的统计量的值可能不一样;
后者是数,可能已知也可能未知。
14
当总体数字特征未知时 ( 设各阶矩存
在 )
16
例 1.2 接例 1.1 ,总体为 88 , 75 , 70 , 63 ,显然,
总体均值为 74. 计算全部 16 个样本的样本均值 .
从中看到,用样本均值估计总体均值,可能估计过 高,可能估计过低。
所有样本均值的平均值恰好是总体均值。 ( 无偏 性 )
样本
编号 样本 样本
均值 样本
编号 样本 样本
均值 样本
编号 样本 样本 均值 1 (88,88
) 88 7 (75,70) 72.5 13 (63,88
) 75.5 2 (88,75
) 81.5 8 (75,63) 69 14 (63,75
) 69
3 (88,70
) 79 9 (70,88) 79 15 (63,70
) 66.5 4 (88,63
) 75.5 10 (70,75) 72.5 16 (63,63
) 63
5 (75,88 )
81.5 11 (70,70) 70 16 个样本均值的平 均为 74
6 (75,75
) 75 12 (70,63) 66.5
2 2 2 n
分布记为
,
6.2
2分布 t 分布 F 分布
2( 一 ) 分布
定义:设随机变量 相互独立 ,
1
,
2, ,
nX X
X
0,1 1, 2, ,
Xi N i n 则称
2 2
1
= (1)
n i i
X
服从自由度为 n 的
其中,自由度指 (1) 式右端包含的独立变量
个数 .
18
2
2
2
1
1 0
1 , 0,
2 2 2
0, 0, .
n
y
x
n
y e y
f y n
y x e dx
分布的概率密度函数为:
其中,
x ( )
f x
0
10 n 1
n
4 n
2分布的概率密度函数
n0样样样样样样x()fx
2分布的性质
2
1 2 2
1 2 1 2
~ ( ), 1, 2, ,
~ ( );
i i
Y n i Y Y
Y Y n n
2. 设 且 相互独立,则有
2
~ ( ),
2n E (
2) n Var , (
2) 2 ; n
1. 设 则有
2——
分布可加性
2
1 2
2
1 1
~ , 1, 2, , ,
~ .
i i m
m m
i i
i i
Y n i m Y Y Y
Y n
样样样样样样 样样样样样样
2
2
2 2 2
,0 1, ,
n fn dy
n
y n
n
为分布的上 分
对给定的概率 称满足条件 的点
上 分位数 的值可查
位数 分布表
20
在 Excel 表单的任一单元格输入
“ =CHISQ.INV.RT (0.1,25)”
;
点击 '' 确定 " 即在单元格中出现 ''34.382".
2
0.1
(25).
例 2.1 利用 Excel
求
22
1,2, ,
i i
Y X i n
样样(1)样样样
1, , ,2 n i
0,1 1,2, ,Y Y Y Y N i n
样 样 样 样 样 样 样 样
2 2 2
1 1
( )
n n
i i
i i
X Y n
于是
22 1 2
1 2
(2) ~ (0, 2 ), ~ (0,1)
2 X X
X X N N
2 3 4 5
3 4 5
2 ~ (0,6 ), 2 ~ (0, 1) 6
X X X
X X X N N
3 4 5
1 2
2 2
3 4 5 2
1 2
2 2
2
2 6
(2 )
( )
~ (2)
2 6
X X X
X X
X X X
X X
与相互独立,
故 2
2
1 , 2
1 , 6
2.
a b
k
24
( 二 ) t 分布
t n
分布概率密度函数
26
, 0 1, ,
t n f t n dt t n
t n t t
对给定的 称满足条件 的点
为 分布的上 分位数。 分布的上 分位数可查 分布表
1 ( ) ( )
t n t n
在 Excel 表单的任一单元格输入
“=T.INV (1–0.05, 25)”
或 “ =T.INV.2T
(0.05*2, 25)”;
点击“确定” 即在单元格中出现 “ 1.708”.
28
0.05
(25).
例 2.3 利用 Excel t
求
1
1 2 2 1
~ ( , ), ~ ( , ).
F F n n F F n n 性质:则
( 三 ) F 分布
30
1, 2
F n n 分布概率密度函数
; ,1 2
f x n n
1, 2 1 2
1 2 1 2
1 2
, 0 1,
; ,
, ,
,
F n n f x n n dx
F n n F n n
F n n F
对于给定的称满足条件
的点为分布的上分位数.
的值可查分布表.
1 1 ( , ) [ ( , )]1 2 2 1
F n n F n n
在 Excel 表单的任一单元格输入
“=F.INV.RT (0.1, 9, 10)”
或 “ =F.INV (1–
0.1, 9, 10)”
;
点击“确定” 即在单元格中出现 “ 2.347”.
32
0.1
(9,10).
例 2.4 利用 Excel F
求
6.3 正态总体下的抽样分布
34
2
1 2
2
2 1
2
2 1
2
, , , ( , )
( )
1
( )
2
n
n
i i
n
i i
X X X N
X S
X X
X
样样样样样样样样
样样样样样样样样样样样样样样样样 样样样样样样样样
样样样样样样样样样
样样样样样样样样样
[ 思考题 ] :
2
( 1) n
2( ) n
答:(1),(2) .
~ ( 1).
X t n
S n
36
2 2
= ~ ( 1).
( 1)
( 1) X
X n t n
n S S n
n
注意到
2 2 2 2
1 1 1 1
1 2
2 2
2 2
2 2
2 2
(1)
S S~ ( 1, 1);
F n n S S
则
定理 6.3.4 设样本 和 分别来自 总体 和 且相互独立,样本均值分 别为 样本方差分别为
X1, , Xn1
Y1, , Yn2
1, 12
2, 22
,N
N , ,
X Y S S12, 22,
1 2
2 2
1 2
1 2
(2)
X Y~ (0,1);
N n n
2 2 2 2
1 1 1 1 2 2
1 2
2 2
2 2
1 1 2 2
2 2
( 1) ( 1)
~ ( 1, 1);
( 1) ( 1)
S n S n S
F n n
n n
S
注意到
38
2 2 2
1 2
1 2
1 2
1 2
2 2
1 1 2 2
2 2
1 2
(3) ,
~ 2 .
1 1
1 1
, .
2
w
w w w
X Y t n n
S n n
n S n S
S S S
n n
当时
其中,
1 2
1 2
1 2
2 2
1 1 2 2
2 2
1 2
1 1
~ 2 .
1 1
( + )
( 2)
X Y
n n t n n
n S n S
n n
2
1 2
2
2 2
3.1
, , ,
( ), ( ), ( );
(2) , ( )
n
X
X X X
X S
E X Var X E S
X N Var S
样样样样样样样样样样样样样
样样样样样样样样样 样样样样样样样样样样样
样: (1) 样样样.
1 1
1 1
( ) ( n i) n ( )i ,
i i
E X E X E X
n n
解:(1)
2
1 2 1
1 1
( ) ( n i) n ( )i ,
i i
Var X Var X Var X
n n n
2 2 2 2
1 1
1 1
( ) ( ( ) ) ( ( ))
1 1
n n
i i
i i
E S E X X E X nX
n n
2 2
1
1 ( ( ) ( ))
1
n i i
E X nE X
n
2 2 2 2 2
1
1 ( ( ) ( )) .
1
n
i
n
n
n
40
2 2
( 1)
2( 1) n S
Var n
2 2 4
( ) .
Var S 1
n
2
2 2 2( 1)
(2) , , n S ~ ( 1),
X N
n
2
1 4
1 9
2 2
1 2
1
4 2 2
1 2
3.2 , , ,
, ,
, ,
~ ( ), ,
(2) ( i ) 4
i
X N X X
Y Y X
X S Y S
a X Y t k a k S
X S
样样样样样
样样样样样样样样样样样样样样
样样样样样样样样样样样样样样 样(1)样样样样样样样
样样样样样样样
42
2 2
(1) ~ ( , ), ~ ( , ),
4 9
X N
Y N
X Y 样样样样样样样
2 1
2
1
3 6 13
6 ~ (3)
3 13
13
S X Y
t X Y t
S
由分布定义,
2 2 2
1 2 1
3S ~ (3),
X Y S
又且与相互独立,
13
26
~ (0, ), ~ (0,1
36 13
X Y N X Y N
() )
6 13 , 3.
a 13 k
4 2
2 2 2 2
2 2
1
4 2 2
1 2
1 8
(2) ( ) ~ (4), ~ (8),
( )
i i
i i
X S
X S
且与独立,
4 2 4
2 2 2 2
2 2 2
1 1
1 ( ) 8 ( ) 4 ~ (4,8).
4 i i 8 i i
F
X
S X
S F
由分布定义知,
44