7.1.1 零假设, 对立假设, 两类错误, 拒绝域, 显著性水平, 功效
在参数估计问题中, 常常在抽样前先对未知总体作一些假定. 例如假定总体 X 服从正态分布, 假定某个正态总体的方差为一个已知值等等. 在数理统计中, 关于总体分布的概率性质的假定称为 (统计) 假设. 抽样前所作出的假设是否与实际符合, 可以用样本所提供的信息来检查, 检查的方法 与过程称为 (统计) 检验. 假设检验问题就是研究如何根据抽样后获得的样本来检验抽样前所作出 的假设. 首先, 由一个例子引出一些基本概念.
例
例例 7.1.1. 某厂产品出厂检验规定:某批产品次品率p不超过4%才能出厂。现从某批产品10000件 中任意抽查12件发现4件次品,问该批产品能否出厂?若抽得结果是1件次品呢?
解: 若以p表示此批产品的次品率,则问该批产品能否出厂等价于即要检验次品率p是否不超 过4%。我们假设“p ≤ 4%”,并记Y 为12件中的次品数,由于总产品数很大,故可以认为Y ∼ B(12, p),此时当p ≤ 0.04时,
P (Y = 4) =12 4
p4q8 <12 4
0.0440.968 = 0.000914
这是一个小概率事件,即当p ≤ 0.04时,12件产品中有4件是次品的概率不到1/1000,这样的事件 在一次试验中几乎是不可能发生的,但确实发生了(我们观察到了4件次品), 因此更倾向于怀疑假 设“p ≤ 0.04”的正确性,即认为它不成立。而由于
P (Y = 1) ≤12 1
0.0410.9612= 0.306
即此时当假设“p ≤ 0.04”成立时,“12个产品中有一个次品”这一事件的概率最大为0.306,这个 事件不是小概率事件。因此我们没有足够的证据支持原假设不成立这一说法。
例
例例 7.1.2. 某饮料厂在自动流水线上罐装饮料. 在正常生产情况下, 每瓶饮料的容量 (单位: 毫升) X 服从正态分布 N (500, 102) (由以往的经验得知). 经过一段时间之后, 有人觉得每瓶饮料的平均 容量减小到 490, 于是抽取了 9 瓶样品, 称得它们的平均值为 ¯x = 492 毫升. 试问此断言是否正 确? 即问平均每瓶饮料的容量仍是 500 毫升还是变成 490 毫升? 假定标准差 10 毫升不变.
在这个问题中, 设经过一段时间后罐装饮料容量 X 的平均值为 µ, 则由题意可设 X ∼ N (µ, 102).
记 x1, · · · , x9 为取自这个正态总体 X 的一组样本观测值, 则 ¯x = 19P9
i=1xi = 492. 我们需要在“饮 料平均容量为 500 毫升”与“饮料平均容量为 490 毫升”之间作判断, 即在“µ = 500”和“µ = 490”之 间作判断. 数理统计中, 把它们看成两个假设. 习惯上, 称前者为原假设或零假设, 记作 H0; 后者 称为备择假设或对立假设, 记作 H1 或 Ha. 所谓检验
H0 : µ = 500 ↔ H1 : µ = 490.
就是要根据样本判断究竟是“H0成立”还是“H1成立”. 断言“H0成立”称为接受 H0; 断言“H1成 立”称为拒绝 H0.
下面讨论如何检验上述假设, 即给定一个接受或者拒绝零假设的准则. 设从总体中抽取一个样 本 X1, · · · , Xn, 我们可以用极大似然估计 T = ¯X (称之为检验统计量) 来估计 µ. 由于该估计值接 近 µ (尤其是当样本量较大时), 故当 T 的绝对值小的时候有利于 H1 而不利于 H0, 此时应该拒绝 H0. 我们可以事先取定一个常数 τ , 称之为临界值, 当 T 的取值小于该临界值时拒绝 H0, 即样本 满足
W = { ¯X < τ }
中时拒绝 H0, 称 W 为拒绝域. 即样本的取值落在拒绝域中, 就拒绝 H0, 否则不能拒绝之. 一个拒 绝域就对应于一个检验方法. 现在的问题是 τ 应该取多大? 这涉及到两类错误.
H H H
H H H H H
决策事实 H0 成立 H1 成立
接受 H0 不犯错 第 II 类错误 拒绝 H0 第 I 类错误 不犯错
称“实际上 H0 成立但是它被拒绝”这个错误为第 I 类错误 (弃真) , 而“实际上 H0 不成立但是它 被接受”这样一类错误为 第 II 类错误 (存伪). 由于我们的方法是基于观测数据, 而观测数据是带 有随机误差的, 故难免在做出决策的时候犯错, 我们能做的是控制犯错的概率. 一个理想的检验应 该使这两类错误的概率都小, 但是在实际问题中不可能使这两类错误一致地小: 要让犯第 I 类错误 的概率小, 应该让 τ 小, 而要让犯第 II 类错误的概率小, 则 τ 不能太小. 解决这个矛盾的一个方 法是在控制I类错误的基础上, 尽量少犯第 II 类错误 (在下一小节中我们讨论如何设定假设时会 提到, 应该将受保护对象设为零假设, 故犯第 I 类错误的严重性更大, 因此必须尽量避免犯第 I 类 错误).因此,这种在只限制第一类错误的原则下的检验方法,就称为“显著性检验”(Significance Test)。具体地, 选定一个小的常数 α, 取 τ 使得犯第 I 类错误的概率, 即 T 小于 τ 的概率小于 α.
称 α 为显著性水平. 理想情况下, τ 取得恰好满足 PH0(T < τ ) = α. 为控制犯第 I 类错误的发生, 通常将 α 取为 0.1, 0.05, 0.01 等较小的数, 具体取值视实际需要而定, 有时候要求 α 很小, 比如在 涉及到数十万个基因标记的基因关联分析中, 单个位点检验的 α 一般是 10−7 这样的量级.
现在将问题一般化. 设有假设检验问题
H0 : θ ∈ Θ0↔ H1 : θ ∈ Θ1. (7.1.1) 其中 H0 为零假设或原假设 而 H1 为对立假设或备择假设. 构造一个适当的检验统计量 T = T (X1, · · · , Xn), 其中 X1, · · · , Xn 为从总体中抽得的一个样本. 根据对立假设的形状构造一个检 验的拒绝域 W = {T (X1, · · · , Xn) ∈ A}, 其中 A 为一个集合, 通常是一个区间. 比如拒绝域可取 为 {T (X1, · · · , Xn) > τ }, 则称 τ 为 临界值. 如果零假设成立但拒绝了零假设, 则称犯了第 I 类错 误, 如果对立假设成立但接受零假设, 则称犯了第 II 类错误. 如对任意的 θ ∈ Θ0, 犯第 I 类错误的 概率 Pθ(T (X1, · · · , Xn) ∈ A) 小于或等于某个正的常数 α), 则称 α 为显著性水平. 显然显著性水 平不是唯一的, 事实上, 如果 α 是一个显著性水平, 则任意大于 α 的数都是显著性水平. 实际中通 常采用显著性水平最小的那一个. 一个检验 对应于一个拒绝域, 称 β(θ) = Pθ (H0 被拒绝) 为检验 的功效函数. 如果检验的显著性水平为 α, 则当 θ ∈ Θ0 时, β(θ) ≤ α. 而当 θ ∈ Θ1 时, 我们希望功 效值越大越好 (这样犯第 II 类错误的概率 1 − β(θ) 就越小), 所以功效可以作为评价一个检验优劣 的准则.
7.1.2 原假设的提法
在有时候需要自己判断如何提假设检验问题. 在建立原假设时有两个原则。
原则一: 将受保护的对象置为零假设. 如我国按照以前的司法制度, 公安机关抓到嫌疑犯后, 很多情况下要犯人自己证明无罪 (有罪推断) , 这对嫌疑犯很不利, 从而容易导致冤案. 现在的司法 制度则总假定嫌疑犯是无罪的, 要司法部门证明其有罪 (无罪推断), 这样做大大地有利于保护公民 的利益, 如果要将真正的嫌疑犯绳之以法, 则司法部门必须有充分的证据, 这样做可以有效保护公 民的权益, 对司法部门要求也变高了. 又比如药厂生产出一种新药, 在上市前要通过食品与药品监 管局的检验. 显然使用药品的病人是应该受保护的对象, 这时应该设定一个有利于病人的命题作为 零假设, 这个命题就是“新药不比安慰剂效果好”, 以尽量避免病人用无效甚至有副作用的新药. 当 然, 对立假设就是“新药比安慰剂效果好’. 将检验的显著性水平 α 设定得较小, 以保证零假设不被 轻易推翻. 在实际问题中, 如果根据某个合理的检验方法发现零假设被推翻, 则有充分的理由认为 零假设不成立而对立假设成立, 这是因为万一零假设成立而被误据的概率不会超过 α; 另一方面, 如果发现零假设未被拒绝, 并不表明有充分理由接受零假设, 而是因为零假设被保护得较严密以至 于未被拒绝.
原则二: 如果你希望“证明”某个命题, 就取相反结论或者其中一部分作为零假设 (类似于反 证法). 这种提法往往是在两个假设命题中不太清楚哪个应受保护, 此时可以借用司法制度里的“谁 主张, 谁举证”, 即若想用统计方法向人“证明” 一个命题, 则将那个命题置为对立假设. 注意这里的 证明不是数学上的严格证明, 而是允许犯错的一种统计推断方法. 用统计方法证明一个命题不是一 件容易的事情, 所以如果没有足够把握, 人们应该避免用统计方法去证明一个命题.
上述两原则是统一的: 一般不应该让受保护对象去证明一个命题.
7.1.3 检验统计量的选取及假设检验的步骤
通过解答例7.1.1来说明假设检验的步骤.
例
例例 7.1.3. (例7.1.1续) 能否在显著性水平 0.05 下认为饮料的平均容量确实减少到 490 毫升?
解: 基于统计量 ¯X, 我们采用“标准化”过的检验统计量 (减均值再除以标准差) T1 =
√n( ¯X − 500) 10
以使该统计量服从标准正态分布, 检验的拒绝域仍取形如 {T1 < τ1}, 我们控制犯第 I 类错误的概 率等于 α, 即
P (T1< τ1|θ = 500) = α.
由于 θ = 500 时 T1 服从标准正态分布, 易知上面关于 τ1 的方程的解为 τ1= −uα, 其中 uc等于标 准正态分布的上 c 分位数, 即检验的拒绝域为
{T1 < −uα}.
现在取显著性水平为 0.05, 则临界值 u0.05 ≈ 1.645. 另一方面, 样本均值 ¯x = 492, 样本量 n = 9, 故检验统计量 T1 的观测值等于 −2.4, 小于临界值 1.645, 即样本落在拒绝域中, 从而可以在显著性 水平 0.05 下拒绝零假设, 认为饮料的平均容量确实减少为 490 毫升.
下面列举几种常见的假设检验问题:
(1) H0 : θ = θ0 ↔ H1 : θ = θ1; (2) H0 : θ = θ0 ↔ H1 : θ 6= θ0;
(3) H0 : θ = θ0 ↔ H1 : θ > θ0或者H0 : θ ≤ θ0 ↔ H1 : θ > θ0 (4) H0 : θ = θ0 ↔ H1 : θ < θ0或者H0 : θ ≥ θ0 ↔ H1 : θ < θ0
称 (1) 为简单假设, (2)为双侧假设因为对立假设是双侧的, (3) 和 (4) 为单侧假设因为对立假 设是单侧的. 这里强调对立假设的原因是检验方法 (对应于一个拒绝域) 只跟对立假设有关.
下面我们给出检验上述假设的一般步骤, 它的基本思想是: 一个好的点估计应该是一个优良检 验的的主要依据, 设定显著性水平为 α.
第 1 步: 求出未知参数 θ 的一个较优的点估计 ˆθ = ˆθ(X1, · · · , Xn), 如极大似然估计.
第 2 步: 以 ˆθ 为基础, 寻找一个检验统计量
T = t(X1, · · · , Xn)
且使得当 θ = θ0 时, T 的分布已知 (如 N (0, 1), tn, Fm,n) , 从而容易通过查表或计算得到这 个分布的分位数, 用以作为检验的临界值.
第 3 步: 以检验统计量 T 为基础, 根据对立假设 H1 的实际意义, 寻找适当形状的拒绝域, 它是关 于 T 的一个或两个不等式), 其中包含一个或两个临界值.
第 4 步: 当零假设成立时, 犯第 I 类错误的概率小于或等于给定的显著性水平 α, 这给出一个关于 临界值的方程, 解出临界值, 它 (们) 等于 T 的分位数, 这样即确定了检验的拒绝域.
第 5 步: 如果给出样本观测值, 则可算出检验统计量的样本观测值, 如落在拒绝域中则可拒绝零假 设, 否则不能.