• 沒有找到結果。

4.2 数理统计的若干基本概念

4.2.3 统计模型

样本既然是随机变量, 就有一定的概率分布, 这个概率分布就叫 作样本分布. 样本分布是样本所受随机性影响的最完整的描述.

要决定样本分布, 就要根据观察值的具体指标的性质 (这往往涉 及有关的专业知识), 以及对抽样方式和对试验进行的方式的了解, 此 外常常还必须加一些人为的假定. 下面看一些例子:

↑Example

一大批产品共有 N 个, 其中废品 M 个, N 已知, 而 M 未知. 现 在从中抽出 n 个加以检验, 用以估计 M 或废品率 p = M /N.

(1) 有放回抽样, 即每次抽样后记下结果, 然后将其放回去, 再抽 第二个, 直到抽完 n 个为止. 求样本分布.

(2) 不放回抽样, 即一次抽一个, 依次抽取, 直到抽完 n 个为止.

求样本分布.

↓Example

解: (1) 在有放回抽样情形, 每次抽样时, N 个产品中的每一个皆 以 1/N 的概率被抽出, 此时 P (Xi = 1) = M /N, P (Xi = 0) =

(N− M)/N, 故有

而在有放回的情形, 样本 X1,· · · , Xn是独立同分布的, 因此要简单得 多.

当 n/N 很小时, (4.5) 和 (4.4) 差别很小. 因而当 n/N 很小时可 把上例中的无放回抽样近似当作有放回抽样来处理.

所谓一个问题的统计模型, 就是指研究该问题时所抽样本的样本 分布, 也常称为概率模型或数学模型.

由于模型只取决于样本的分布, 故常把分布的名称作为模型的名 称. 如下列例4.2.3中样本分布为正态,可称其为正态模型。因此把模 型和样本紧密联系起来是必要的. 统计分析的依据是样本, 从统计上 说, 只有规定了样本的分布, 问题才算真正明确了.

下例告诉我们是怎样由一个具体问题建立统计模型的.

↑Example

为估计一物件的重量 a, 用一架天平将它重复称 n 次, 结果记为

X1,· · · , Xn, 求样本 X1,· · · , Xn的联合分布. ↓Example

解: 要定出 X1,· · · , Xn 的分布, 就没有前面例子那种简单的算法, 需 作一些假定: (1) 假定各次称重是独立进行的, 即某次称重结果不受其 它次称重结果的影响. 这样 X1,· · · , Xn 就可以认为是相互独立的随 机变量. (2) 假定各次称重是在 “相同条件” 下进行的, 可理解为每次 用同一天平, 每次称重由同一人操作, 且周围环境 (如温度、湿度等) 都相同. 在这个假定下, 可认为 X1,· · · , Xn是同分布的. 在上述两个 假定下, X1,· · · , Xn是 n 个独立同分布的随机变量, 即为简单随机样 本.

为确定 X1,· · · , Xn 的联合分布, 在以上假定之下求出 X1 的分 布即可. 在此考虑称重误差的特性: 这种误差一般由大量的、彼此独 立起作用的随机误差迭加而成, 而每一个起的作用都很小. 由概率论 中的中心极限定理可知这种误差近似服从正态分布. 再假定天平没 有系统误差, 则可进一步假定此误差为均值为 0 的正态分布. 可以把 X1 (它可视为物重 a 加上称量误差之和) 的概率分布为 N (a, σ2). 因

此简单随机样本 X1,· · · , Xn的联合分布为

f (x1,· · · , xn) = (

2πσ)−nexp{− 1 2

n i=1

(xi− a)2} (4.6)

本例中求样本分布, 引入两种假定: (i) 导出样本 X1,· · · , Xni.i.d.

的假定, (ii) 正态假定, 这一点依据问题的性质、概率论的极限理论和 以往经验.

在有了研究统计模型后, 很多性质不一样的问题, 可以归入到同 一模型下. 例如涉及到测量误差的问题, 只要例4.2.3中叙述的假定误 差服从正态分布的理由成立, 则都可以用正态模型 (4.6). 只要把这个 模型中的统计问题研究清楚了, 就可以解决许多不同专业部门中的这 样一类问题.

另 一 方 面, 同 一 模 型 下 可 以 提 出 很 多 不 同 的 统 计 问 题. 如 例4.2.3的 N (a, σ2) 模型中, 有了样本 X1,· · · , Xn, 并规定分布 (4.6) 后就有了一个统计模型. 在这个模型下可提出一些统计问题, 如在 例4.2.3中, 我们的问题是估计物重 a. 为了考察天平的精度我们可以

提出估计 σ2 的问题, 当然我们还可以对 a 和 σ2 提出假设检验和区 间估计问题等等.

相關文件