第二章、经典单方程计量经济学模型：多元线性回归模型

(1)

第二章、经典单方程计量经济学模型：多元线性回归模型

一、内容提要

本章将一元回归模型拓展到了多元回归模型，其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要，在基本假设方面以及检验方面有所扩充。

本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比，多元回归分析的基本假设中引入了多个解释变量间不存在（完全）多重共线性这一假设；在检验部分，一方面引入了修正的可决系数，另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性 F 检验，并讨论了 F 检验与拟合优度检验的内在联系。

本章的另一个重点是将线性回归模型拓展到非线性回归模型，主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。

本章第三个学习重点是关于模型的约束性检验问题，包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容，其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以 F 检验为主要检验工具，以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础，但以最大似然原理进行估计，且都适用于大样本情形，都以约束条件个数为自由度的

χ

²^{分布为检验统计}

量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。

二、典型例题分析

例 1．某地区通过一个样本容量为 722 的调查数据得到劳动力受教育的一个回归方程为

3 2

1

0 . 131 0 . 210

094 . 0 36 .

10 X X X

Y = − + +

R²=0.214

式中，

Y

为劳动力受教育年数，

X

₁为该劳动力家庭中兄弟姐妹的个数，

X

₂与

X

₃分别为母

(2)

亲与父亲受到教育的年数。问

（1）

X

₁是否具有预期的影响？为什么？若

X

₂与

X

₃保持不变，为了使预测的受教育水

平减少一年，需要

X

₁增加多少？

（2）请对

X

₂的系数给予适当的解释。

（3）如果两个劳动力都没有兄弟姐妹，但其中一个的父母受教育的年数为 12 年，另一个的父母受教育的年数为 16 年，则两人受教育的年数预期相差多少？

解答：

（1）预期

X

₁对劳动者受教育的年数有影响。因此在收入及支出预算约束一定的条件下，

子女越多的家庭，每个孩子接受教育的时间会越短。

根据多元回归模型偏回归系数的含义，

X

₁前的参数估计值-0.094 表明，在其他条件不变的情况下，每增加 1 个兄弟姐妹，受教育年数会减少 0.094 年，因此，要减少 1 年受教育的时间，兄弟姐妹需增加 1/0.094=10.6 个。

（2）

X

₂的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时，母亲每增加 1 年受教育的机会，其子女作为劳动者就会预期增加 0.131 年的受教育机会。

（3）首先计算两人受教育的年数分别为 10.36+0.131×12+0.210×12=14.452

10.36+0.131×16+0.210×16=15.816

因此，两人的受教育年限的差别为 15.816-14.452=1.364

例 2．以企业研发支出（R&D）占销售额的比重为被解释变量（

Y

），以企业销售额（

X

₁）

与利润占销售额的比重（

X

₂）为解释变量，一个有 32 容量的样本企业的估计结果如下：

099 . 0

) 046 . 0 ( )

22 . 0 ( ) 37 . 1 (

05 . 0 ) log(

32 . 0 472 . 0

2

2 1

=

+ +

=

R

X X

Y

其中括号中为系数估计值的标准差。

（1）解释 log(

X

₁)的系数。如果

X

₁增加 10%，估计

Y

会变化多少个百分点？这在经济上是一个很大的影响吗？

（2）针对 R&D 强度随销售额的增加而提高这一备择假设，检验它不随

X

₁^{而变化的假}

设。分别在 5%和 10%的显著性水平上进行这个检验。

（3）利润占销售额的比重

X

₂对 R&D 强度

Y

是否在统计上有显著的影响？

解答：

（1）log(

X

₁)的系数表明在其他条件不变时，log(

X

₁)变化 1 个单位，

Y

变化的单位数，

(3)

即∆

Y

=0.32∆log(

X

₁)≈0.32(∆

X

₁/

X

₁)=0.32×100%，换言之，当企业销售

X

₁增长 100%时，

企业研发支出占销售额的比重

Y

会增加 0.32 个百分点。由此，如果

X

₁增加 10%，

Y

会增加 0.032 个百分点。这在经济上不是一个较大的影响。

（2）针对备择假设 H1：

β

₁

> 0

，检验原假设 H0：

β

₁

= 0

。易知计算的 t 统计量的值为 t=0.32/0.22=1.468。在 5%的显著性水平下，自由度为 32-3=29 的 t 分布的临界值为 1.699

（单侧），计算的 t 值小于该临界值，所以不拒绝原假设。意味着 R&D 强度不随销售额的增加而变化。在 10%的显著性水平下，t 分布的临界值为 1.311，计算的 t 值小于该值，拒绝原假设，意味着 R&D 强度随销售额的增加而增加。

（3）对

X

₂，参数估计值的 t 统计值为 0.05/0.46=1.087，它比在 10%的显著性水平下的临界值还小，因此可以认为它对

Y

在统计上没有显著的影响。

例 3．表 3-1 为有关经批准的私人住房单位及其决定因素的 4 个模型的估计量和相关统 计值（括号内为 p-值）（如果某项为空，则意味着模型中没有此变量）。数据为美国 40 个城市的数据。模型如下：

µ β

β β

β

+ +

=

7 7 6 6 5 5

4 4 3 3 2 2 1 1 0

X X

X

X X

Y

式中，

Y

为实际颁发的建筑许可证数量，

X

₁每平方英里的人口密度，

X

₂自有房屋的均值

（单位：百美元），

X

₃平均家庭的收入（单位：千美元），

X

₄为 1980~1992 年的人口增长

百分比，

X

₅失业率，

X

₆人均交纳的地方税，

X

₇人均缴纳的州税。

表 3-1

变量模型 A 模型 B 模型 C 模型 D

C 813 (0.74) -392 (0.81) -1279 (0.34) -973 (0.44)

X

1 0.075 (0.43) 0.062 (0.32) 0.042 (0.47)

X

2 -0.855 (0.13) -0.873 (0.11) -0.994 (0.06) -0.778 (0.07)

X

3 110.41 (0.14) 133.03 (0.04) 125.71 (0.05) 116.60 (0.06)

X

4 26.77 (0.11) 29.19 (0.06) 29.41 (0.001) 24.86 (0.08)

X

5 -76.55 (0.48)

X

6 -0.061 (0.95)

X

7 -1.006 (0.40) -1.004 (0.37)

RSS 4.763E+7 4.843E+7 4.962E+7 5.038E+7 R² 0.349 0.338 0.322 0.312

ˆ

2

σ

^1.488E+6 ^1.424E+6 ^1.418E+6 ^1.399E+6

AIC 1.776E+6 1.634E+6 1.593E+6 1.538E+6

（1）检验模型 A 中的每一个回归系数在 10%水平下是否为零（括号中的值为 p-值）。根据检验结果，你认为应该把变量保留在模型中还是去掉？

(4)

（2）在模型 A 中，在 10%水平下检验联合假设 H0：

β

_i=0(i=1,5,6,7)。说明被择假设，计算检验统计值，说明其在零假设条件下的分布，拒绝或接受零假设的标准。说明你的结论。

（3）哪个模型是“最优的”？解释你的选择标准。

（4）说明最优模型中有哪些系数的符号是“错误的”。说明你的预期符号并解释原因。确认其是否为正确符号。

解答：

（1）直接给出了 p-值，所以没有必要计算 t-统计值以及查 t 分布表。根据题意，如果 p- 值<0.10,则我们拒绝参数为零的原假设。

由于表中所有参数的 p-值都超过了 10%，所以没有系数是显著不为零的。但由此去掉所有解释变量，则会得到非常奇怪的结果。其实正如我们所知道的，多元回去归中去掉变量时一定要谨慎，要有所选择。本例中，

X

₂^、

X

₃、

X

₄的 p-值仅比 0.1 稍大一点，在略掉

X

₅、

X

6、

X

₇的模型 C 中，这些变量的系数都是显著的。

（2）针对联合假设

H

₀：

β

_i=0(

i

=1,5,6,7)，其对应的备择假设为

H

₁：

β

_i(

i

=1,5,6,7) 中至少有一个不为零。检验假设

H

₀，实际上就是参数的约束性检验，非约束模型为模型 A，

约束模型为模型 D，检验统计值为

462 . ) 0

8 40 /(

) 7 763 . 4 (

) 3 7 /(

) 7 763 . 4 7 038 . 5 ( )

1 /(

) /(

)

( =

− +

−

= +

−

= −

e e e

k n RSS

k k RSS F RSS

U U

R U U R

显然，在

H

₀假设下，上述统计量满足 F 分布，在 10%的显著性水平下，自由度为（4，32）

的 F 分布的临界值位于 2.09 和 2.14 之间。显然，计算的 F 值小于临界值，我们不能拒绝

H

₀，

所以

β

_i⁽

i

=1,5,6,7)是联合不显著的。

(3）模型 D 中的 3 个解释变量全部通过显著性检验。尽管

R

²值相对较小、残差平方和相对较大，但相对来说其 AIC 值最低，所以我们选择该模型为最优的模型。

（4）随着收入的增加，我们预期住房需要会随之增加。所以可以预期

β

₃>0，事实上其估计值确是大于零的。同样地，随着人口的增加，住房需求也会随之增加，所以我们预期

β

₄>0，

事实上其估计值也是如此。随着房屋价格的上升，我们预期对住房的需求人数减少，即我们预期

β

₃估计值的符号为负，回归结果与直觉相符。出乎预料的是，地方税与州税为不显著的。由于税收的增加将使可支配收入降低，所以我们预期住房的需求将下降。虽然模型 A 是这种情况，但它们的影响却非常微弱。

例 4、在经典线性模型基本假定下，对含有三个自变量的多元回归模型：

(5)

µ β

β β

β + + + +

=

₀ ₁

X

₁ ₂

X

₂ ₃

X

₃

Y

你想检验的虚拟假设是

H

₀：

β

₁

− 2 β

₂

= 1

。

（1）用

β ˆ

₁

, β ˆ

₂^{的方差及其协方差求出}

Var ( β − ˆ

₁

2 β ˆ

₂

)

。（2）写出检验

H

₀：

β

₁

− 2 β

₂

= 1

的 t 统计量。

（3）如果定义

β

₁

− 2 β

₂

= θ

^{，写出一个涉及}

β

₀^、

θ

^、

β

₂^和

β

₃^{的回归方程，以便能直}

接得到

θ

^估计值

θˆ

及其标准误。

解答：

（1）由数理统计学知识易知

ˆ ) ( 4 ˆ ) ˆ , ( 4 ˆ ) ( ˆ )

ˆ 2

( β

₁

β

₂

Var β

₁

Cov β

₁

β

₂

Var β

₂

Var − = − +

（2）由数理统计学知识易知

ˆ ) ˆ 2 (

ˆ 1 ˆ 2

2 1

β β

−

= − se

t

，其中

se ( β ˆ

₁

− 2 β ˆ

₂

)

为

( β ˆ

₁

− 2 β ˆ

₂

)

的标准差。

（3）由

β

₁

− 2 β

₂

= θ

^知

β

₁

= θ + 2β

₂，代入原模型得

µ β

β θ β

µ β

β β

θ β

+ +

+

=

+ +

+

=

3 3 2 1 2 1 0

3 3 2 2 1 2 0

) 2

( ) 2 (

X X

X Y

这就是所需的模型，其中

θ

^估计值

θ ^ˆ

及其标准误都能通过对该模型进行估计得到。

例 5、对于涉及到三个变量

Y

、

X

₁、

X

₂的数据做以下回归：

I

Y

_i

= α

₀

+ α

₁

X

₁_i

+ µ

₁_i

II

Y

_i

= β

₀

+ β

₁

X

₂_i

+ µ

₂_i

III

Y

_i

= γ

₀

+ γ

₁

X

₁_i

+ γ

₂

X

₂_i

+ µ

₃_i

问在什么条件下才能有

α ˆ

₁

= γ ˆ

₁及

β ˆ

₁

= γ ˆ

₂，即多元回归与各自的一元回归所得的参数估计值相同。

解答：由回归模型 I 与 II 分别知：

∑ ∑

=

₂

1 1

ˆ

1

i i i

x y

α x

^，

∑ ∑

=

₂

2 2

ˆ

1

i i i

x

y

β x

(6)

对模型 III，令其样本回归模型的离差形式为

i i i

i

x x e

y = γ

₁ ₁

+ γ

₂ ₂

+

₃

求

∑ ^e

ⁱ²

⁼ ( ^y

ⁱ

⁻ ^γ

₁

^x

₁ⁱ

⁻ ^γ

₂

^x

₂ⁱ

)

²

的最小值，可得如下正规方程组：

∑ ^y

ⁱ

^x

¹ⁱ

⁼ ^γ

¹

∑ ^x

¹²ⁱ

⁺ ^γ

²

∑ ^x

¹ⁱ

^x

²ⁱ

∑ ^y

ⁱ

^x

²ⁱ

⁼ ^γ

¹

∑ ^x

¹ⁱ

^x

²ⁱ

⁺ ^γ

²

∑ ^x

²²ⁱ

解此方程组得

∑ ∑ ∑

∑ ∑ ∑ ∑

−

= −

₂

2 1 2

2 2 1

2 1 2

2 2 1

1

( )

) )(

( ) )(

ˆ (

i i i

i

i i i i

i i

i

x x x

x

x x x

y x

x γ y

∑ ∑ ∑

∑ ∑ ∑ ∑

−

= −

₂

2 1 2

2 2 1

2 1 1

2 1 2

2

( )

) )(

( ) )(

ˆ (

i i i

i

i i i i

i i

i

x x x

x

x x x

y x

x γ y

可见，当

∑ ^x

¹ⁱ

^x

²ⁱ

^{= 0}

^时，即

^X

¹^与

^X

²完全线性无关时（正交），有

α = ˆ

₁

γ ˆ

₁^及

β ^ˆ

₁

= γ ^ˆ

₂^。由

此得多元回归的一个重要的结论：当各解释变量没有线性相关性时，多元回归中各解释变量的参数等于分别进行一元回归时解释变量的参数。

三、教材练习题及其参考解答

1、多元线性回归模型的基本假设是什么？试说明在证明最小二乘估计量的无偏性和有效性的过程中，哪些基本假设起了作用？

答：多元线性回归模型的基本假定仍然是针对随机误差项与针对解释变量两大类的假设。针对随机误差项的假设有：零均值、同方差、无序列相关且服从正态分布；针对解释变量的假设有：解释变量应具有非随机性，如果是随机的，则不能与随机误差项相关；各解释变量之间不存在（完全）线性相关关系。

在证明最小二乘估计量的无偏性中，利用了解释变量非随机或与随机误差项不相关的假定；在有效性的证明中，利用了随机误差项同方差且无序列相关的假定。

2、在多元线性回归分析中， t 检验与F检验有何不同？在一元线性回归分析中二者是否有等价的作用？

答：在多元线性回归分析中，t 检验常被用作检验回归方程中各个参数的显著性，而 F

(7)

检验则被用作检验整个回归关系的显著性；各解释变量联合起来对被解释变量有显著的线性关系，并不意味着每一个解释变量分别对被解释变量有显著的线性关系。在一元线性回归分析中，二者具有等价作用，因为二者都是对共同的假设——解释变量的参数等于零——进行检验。

3、为什么说对模型参数施加约束条件后，其回归的残差平方和一定不比未施加约束的残差平方和小？在什么样的条件下，受约束回归与无约束回归的结果相同？

答：对模型参数施加约束条件后，就限制了参数的取值范围，寻找到的参数估计值也是在此给条件下使残差平方和达到最小，它不可能比未施加约束条件时找到的参数估计值使得残差平方达到的最小值还要小。但当约束条件为真时，受约束回归与无约束回归的结果就相同了。

4、在一项调查大学生一学期平均成绩（

Y

^{）与每周在学习（}

X

₁）、睡觉（

X

₂）、娱乐

（

X

₃）与其他（

X

₄）等各种活动所用时间的关系的研究中，建立如下回归模型：

µ β

β β

β

β + + + + +

=

₀ ₁

X

₁ ₂

X

₂ ₃

X

₃ ₄

X

₄

Y

如果这些活动所用时间的总和为一周的总小时数 168。问：保持其他变量不变，而改变其中一个变量的说法是否有意义？该模型是否有违背基本假设的情况？如何修改此模型以使其更加合理。

解答：由于

X

₁

+ X

₂

+ X

₃

+ X

₄

= 168

，当其中一个变量变化时，至少有一个其他变量也得变化，因此，保持其他变量不变，而改变其中一个变量的说法是无意义的。

显然，由于四类活动的总和为一周的总小时数 168，表明四个 X 间存在完全的线性关系，

因此违背了解释变量间不存在（完全）多重共线性的假设。

可以去掉其中的一个变量，如去掉代表“其他”活动的变量

X

₄，则新构成的三变量模

型更加合理。如这时

β

₁就测度了当其他两变量不变时，每周增加 1 小时的学习时间所带来的学习成绩的平均变化。这时，即使睡觉和娱乐的时间保持不变，也可以通过减少其他活动的时间来增加学习的时间。而这时三个变量间也不存在明显的共线性问题。

5、考虑下列两个模型：

I

Y

_i

= α

₀

+ α

₁

X

₁_i

+ α

₂

X

₂_i

+ u

_i

II

Y

_i

− X

₁_i

= β

₀

+ β

₁

X

₁_i

+ β

₂

X

₂_i

+ v

_i

(8)

（1）证明：

ˆ ˆ 1

1

= α −

β

，

β ˆ

₀

= α ˆ

₀，

β ˆ

₂

= α ˆ

₂。

（2）证明：两个模型的最小二乘残差相等，即对任何

i

^，有

u ˆ

_i

= v ˆ

_i。

（3）在什么条件下，模型 II 的

R

²小于模型 I 的

R

²？解答：（1）对模型 II 变形如下：

Y

_i

= β

₀

+ ( β

₁

+ 1 ) X

₁_i

+ β

₂

X

₂_i

+ v

_i

因此，在与模型 I 有相同的样本下进行 OLS 估计，有

α ˆ

₁

= β ˆ

₁

+ 1

^，

β ˆ

₀

= α ˆ

₀^，

β ˆ

₂

= α ˆ

₂

或

ˆ ˆ 1

1

= α −

β

^，

β ˆ

₀

= α ˆ

₀，

β ˆ

₂

= α ˆ

₂

（2）在（1）成立的条件下，

i i i

i i

i

i i

v X X

X Y

X X

Y

X X

Y u

ˆ ˆ ˆ

ˆ ) ˆ ˆ 1 ˆ (

ˆ ˆ

2 2 1 1 0 1

2 2 1 1

0

2 2 1 1 0

=

−

=

− +

−

=

−

=

β β

β

β β

β

α α

α

（3）对模型 I，

∑ ∑

− −

=

₂

2 2

) (

1 ˆ

Y Y R u

i i

对模型 II，

∑ ∑

−

− −

=

₂

2 2

)]

( ) [(

1 ˆ

X Y X

Y R v

i i

i

由（2）知

∑ ^u ^ˆ

ⁱ

⁼ ∑ ^v ^ˆ

ⁱ^{，故，只有当}

∑ ^[( ^Y

ⁱ

⁻ ^X

²ⁱ

⁾ ⁻ ⁽ ^Y ⁻ ^X

²

^)]

²

^< ∑ ⁽ ^Y

ⁱ

⁻ ^Y ⁾

²^时，

即模型 II 的总变差（解释变量的离差平方和）小于模型 1 的总变差（解释变量的离差平方和）时，才会有模型 II 的

R

²小于模型 I 的

R

²。

6、考虑下列三个试验步骤

（1）对

Y

_i

= β

₀

+ β

₁

X

₁_i

+ β

₂

X

₂_i

+ u

_i进行回归

（2）对

X

₁_i

= α

₀

+ α

₁

X

₂_i

+ v

_i^{进行回归，计算残差}

vˆ

_i

（3）对

Y

_i

= γ

₀

+ γ

₁

v ˆ

_i

+ γ

₂

X

₂_i

+ w

_i进行回归试证明

β ˆ

₁

= γ ˆ

₁，并直观地解释该结果。

证明：由（2）计算残差

vˆ

_i^：

v ˆ

_i

= X

₁_i

− α − ˆ

₀

α ˆ

₁

X

₂_i，代入到（3）的回归中得：

(9)

Y

_i

= γ

₀

+ γ

₁

( X

₁_i

− α ˆ

₀

− α ˆ

₁

X

₂_i

) + γ

₂

X

₂_i

+ w

_i

或

Y

_i

= ( γ

₀

− α ˆ

₀

γ

₁

) + γ

₁

X

₁_i

+ ( γ

₂

− α ˆ

₁

γ

₁

) X

₂_i

+ w

_i

可见，模型形式与步骤（1）中的完全相同，因此必有

β ˆ

₁

= γ ˆ

₁^{。直观地看，}

v

_i^测度的是

X

₂

以外的因素对

X

₁的影响。因此对（3）中的模型来说，

vˆ

_i对

Y

的影响只能归结到

X

₁对

Y

的

影响上来，与

X

₂^{无关。所以，}（1）中模型的

β

₁与（3）中模型的

γ

₁^{都是测度排除了}

X

₂^后

的

X

₁对

Y

的影响，二者的回归结果应是相等的。

7、考虑以下过原点回归

i i i

i

X X e

Y = β ˆ

₁ ₁

+ β ˆ

₂ ₂

+

（1）求参数的 OLS 估计量；

（2）对该模型，是否仍有结论

∑ ^e

ⁱ

^{= 0}

^，

∑ ^e

ⁱ

^X

¹ⁱ

^{= 0}

^，

∑ ^e

ⁱ

^X

²ⁱ

^{= 0}

^。

解：（1）根据最小二乘原理，需求适当的

β ˆ

₁^、

β ˆ

₂，使得残差平方和最小：

Min

∑ ^e

ⁱ²

⁼ ∑ ⁽ ^Y

ⁱ

⁻ ^β ^ˆ

¹

^X

¹ⁱ

⁻ ^β ^ˆ

²ⁱ

^X

²ⁱ

⁾

²

由微积分的知识，对上式分别关于

β ˆ

₁、

β ˆ

₂求偏导，并令导数值为零得如下正规方程组：

∑ ⁽ ^Y

ⁱ

⁻ ^β ^ˆ

¹ⁱ

^X

¹ⁱ

⁻ ^β ^ˆ

²ⁱ

^X

²ⁱ

⁾ ^X

¹ⁱ

⁼ ⁰

∑ ⁽ ^Y

ⁱ

⁻ ^β ^ˆ

¹ⁱ

^X

¹ⁱ

⁻ ^β ^ˆ

²ⁱ

^X

²ⁱ

⁾ ^X

²ⁱ

⁼ ⁰

或

∑ ^X

¹²ⁱ

⁺

²

∑ ^X

¹ⁱ

^X

²ⁱ

⁼ ∑ ^X

¹ⁱ

^Y

ⁱ

1

ˆ

ˆ β

β

∑ ^X

¹ⁱ

^X

²ⁱ

⁺

²

∑ ^X

²²ⁱ

⁼ ∑ ^X

²ⁱ

^Y

ⁱ

1

ˆ

ˆ β

β

解得

∑ ∑ ∑

∑ ∑ ∑ ∑

−

= −

₂

2 1 2

2 2 1

2 1 2

2 2 1

1

( )

) )(

( ) )(

ˆ (

i i i

i

i i i i

i i

i

X X X

X

X X X

Y X

X β Y

∑ ∑ ∑

∑ ∑ ∑ ∑

−

= −

₂

2 1 2

2 2 1

2 1 1

2 1 2

2

( )

) )(

( ) )(

ˆ (

i i i

i

i i i i

i i

i

X X X

X

X X X

Y X

X β Y

（2）由（1）中的正规方程组知，对该模型，仍有

(10)

∑ ^e

ⁱ

^X

¹ⁱ

^{= 0}

∑ ^e

ⁱ

^X

²ⁱ

^{= 0}

但不存在

∑ ^e

ⁱ

^{= 0}

。即过原点的残差和不一定为零。

8、对多元线性回归模型

Y = X β + μ

，试证明随机误差项

µ

的方差的无偏估计量为

ˆ

²

1 −

−

= ′ k n

e

σ e

^。其中

e

为相应样本回归模型的残差向量。

证：

由于被解释变量的估计值与观测值之间的残差

e = Y − X β ˆ

Mμ

μ X X X X I

μ X X X μ X

μ X β X X X μ X X β

=

′

− ′

=

′

− ′

=

′ +

− ′ +

=

−

) ) ( (

) (

1 1

1

残差的平方和为：

e ′ e = μ ′ M ′ Mμ

因为

M = ( I − X ( X ′ X )

⁻¹

X ′ )

为对称等幂矩阵，即

M M

M M M M

= ′

= ′ =

2

所以有

e ′ e = μ ′ M μ

)) 1 ( (

)) ) ( ( (

) ) ( (

) ) ) ( ( ( ) (

2

1 2

1

+

−

=

′

− ′

=

′

− ′

=

′

− ′

= ′

′

−

k n

tr tr tr E E

σ σ σ

X X X X I

μ X X X X μ I

e e

其中符号“tr”表示矩阵的迹，其定义为矩阵主对角线元素的和。于是

1 )

2

(

−

= ′ k n

E e e

σ

以上过程既导出了随机误差项方差的估计量为

ˆ

²

1 −

−

= ′ k n

e

σ e

也证明了该估计量是无偏估计量。

9、对多元线性回归模型

Y = X β + μ

，试证明普通最小二乘估计量

βˆ

^{具有最小方差性。}

证：

(11)

设

β

^*^{是其他方法得到的关于}

β

^{的线性无偏估计量：}

β

^*

= C

^*

Y

其中，

C

^*

= C + D = ( X ′ X )

⁻¹

X ′ + D

^，

D

为一固定矩阵，于是

β

^*

= C

^*

Y = C

^*

X β + C

^*

μ

E ( β

^*

) = C

^*

X β

β

*^{的无偏性要求}

C

^*

X = I

。由于

C

^*

X = ( X ′ X )

⁻¹

X ′ X + DX

于是，

C

^*

X = I

当且仅当

DX = 0

。

β

^*的方差-协方差矩阵为：

D β D

D D X

X

D D X X DX D X X X X

X X X X X

D X X μ X μ D X X X

μ μ C C

β Y β C Y C

β β β β β

*

+ ′

=

+ ′

= ′

+ ′ + ′

′

′ + ′

′

= ′

+ ′

′ + ′

′

= ′

− ′

−

=

− ′

−

=

−

2 2 1 2

1 1

2

1 1

ˆ ) (

) (

] )

( )

( ) ( ) [(

] )

( [ ] )

[(

] ) )(

[(

] ) )(

[(

) ) )(

((

) (

σ σ σ

σ

Cov E E E E Cov

D

D ′

为主对角线元素非负的对称矩阵，由此得

β

^*的方差大于或等于最小二乘估计量

βˆ

^的方差。

10、对下列模型：

I

Y

_i

= α + β X

_i

+ 2 Z

_i

+ u

_i II

Y

_i

= α + β X

_i

− β Z

_i

+ u

_i

求出

β

的最小二乘估计值；并将结果与下面的三变量回归方程的最小二乘估计值作比较：

III

Y

_i

= α + β X

_i

+ γ Z

_i

+ u

_i 你认为哪一个估计值更好？

解答：将模型 I 改写成

( Y

_i

− 2 Z

_i

) = α + β X

_i

+ u

_i，则

β

的估计值为：

(12)

∑ ∑ ⁻

=

₂

) (

) 2 )(

ˆ (

i i i i

x z y β x

将模型 II 改写成

Y

_i

= α + β ( X

_i

− Z

_i

) + u

_i^，则

β

的估计值为：

∑ ∑

−

= −

₂

) (

) ˆ (

i i

i i i

z x

y z β x

对模型 III，

β

的估计值为

∑ ∑ ∑

∑ ∑ ∑ ∑

−

=

₂ ₂

−

₂

2

) (

) )(

( ) )(

ˆ (

i i i

i

i i i i

i i i

z x z

x

z x z y z

x β y

显然，模型 I 与模型 II 分别是模型 III 的参数在如下约束下的变形式：

γ

=2，

γ = − β

因此，如果限制条件正确，则三个回归结果相同。当然，从参数估计的表达式上看，模型 I 与模型 II 的回归算法更简洁。但如果限制条件不正确，则模型 I 与模型 II 的回归参数是有偏的。

11、下表给出三变量模型的回归结果：

方差来源平方和（SS）自由度（d.f.）平方和的均值(MSS)

来自回归 65965 — —

来自残差 — — —

总离差(TSS) 66042 14

求：（1）样本容量 n；残差平方和 RSS；回归平方和 ESS 及残差平方和 RSS 的自由度。

（2）求拟合优度

R

²及调整的拟合优度

R

²

（3）检验假设：

X

₂^和

X

₃对 Y 无影响。应采用什么假设检验？为什么？

（4）根据以上信息，你能否确定

X

₂^和

X

₃各自对 Y 的影响吗？

解答：

（1）样本容量为：

n = d . f . + 1 = 15

RSS = TSS − ESS = 66042 − 65965 = 77

ESS

的自由度为：

d . f . = 14 − 2 = 12

RSS

的自由度为：

d . f . = n − 3 = 12

(13)

（2）

0 . 9988 66042

65965

2

= = =

TSS R ESS

9986 . 12 0 0012 14 . 0 1 1 ) 1

1 (

1

²

2

= − × =

−

− −

−

= n k

R n R

（4）应该采用联合假设检验，即 F 检验，理由是只有这样做才能判断

X

₂、

X

₃一起是否对

Y

有影响。

（5）不能。因为仅通过上述信息，可初步判断

X

₂、

X

₃联合起来对

Y

有线性性影响，

两者的变化解释了

Y

变化的 99.8%。但由于无法知道回

X

₂、

X

₃前参数的具体估计值，因

此还无法判断它们各自对

Y

的影响有多大。

12、在一项对某社区家庭对某种消费品的消费需要调查中，得到表 3-3 的资料。请用手

工与软件两种方式对该社区家庭对该商品的消费需求支出作二元线性回归分析。其中手工方式要求以矩阵表达式进行运算。

（1）估计回归方程的参数及随机误差项的方差

σ ˆ

²，计算

R

²及

R

²；

（2）对方程进行 F 检验，对参数进行 t 检验，并构造参数 95%的置信区间。

（3）如果商品单价变为 35 元，则某一月收入为 20000 元的家庭对其的消费支出估计是多少？构造该估计值的 95%的置信区间。

表 3-3

序号

对某商品的消费支出 Y

（元）

商品单价 X1

（元）

家庭月收入 X2

（元）

序号

对某商品的消费支出 Y

（元）

商品单价 X1

（元）

家庭月收入 X2

（元）

1 591.9 23.56 7620 6 644.4 34.14 12920 2 654.5 24.44 9120 7 680 35.3 14340 3 623.6 32.07 10670 8 724 38.7 15960 4 647 32.46 11160 9 757.1 39.63 18000 5 674 31.15 11900 10 706.8 46.68 19300 解：（1）以矩阵形式表达，二元样本回归方程为

β e X Y = ˆ +

参数的估计值为

Y) X ( X) X

β ˆ = ( ′

⁻¹

′

由于

(14)

 







 







−

′

⁻

=

00000011 .

0 0005958 .

0 00053817 .

0 00005958 .

0 03381604 .

0 3630211 .

0 00053817 .

0 36302110 .

0 32536028 .

5 )

( X X

¹ ，

 







 







′ =

89275178 63 . 228956

3 . 6703 Y

X

于是

 







 







−

′ =

= ′



 







 





−

02862 . 0

79057 . 9

509 . 626 ˆ

ˆ ˆ

2 1 0

Y) X ( X) X (

¹

β

β β

根据随机误差项方差的估计式

^σ ^ˆ

²

⁼ ∑ ^e

ⁱ²

^/( ⁿ ⁻ ^k ⁻ ¹ ⁾

^得到

) 1 ˆ

²

= e ′ e /( n − k − σ

而

85 . 2116 4512955

4515072 ˆ

ˆ ˆ

ˆ

ˆ ˆ ˆ

ˆ

ˆ ˆ

=

−

=

− ′

= ′

′

′ + ′

′

− ′

= ′

′ + ′

′

− ′

= ′

′ −

−

=

′ −

−

′ =

−

β X Y Y Y

Y X X) X X(

β X Y β X β X Y Y Y

β X β X Y β X β X Y Y Y

β ) X (Y β ) X (Y ) Y (Y ) Y (Y e e

1

故

302 . 41

1 2 10

85 . ) 2116 1

ˆ

²

/( =

−

= −

−

′ −

= e e n k σ

又由于

^TSS ⁼ ∑ ⁽ ^Y

ⁱ

⁻ ^Y ⁾

²

⁼ ∑ ⁽ ^Y

ⁱ²

⁻ ² ^Y ^Y

ⁱ

⁺ ^Y

²

⁾ ⁼ ∑ ^Y

ⁱ²

⁻ ⁿ ^Y

²

74 . 21648 3

. 449342 10

4515072

2

=

×

−

=

′ −

= Y Y n Y

故

0 . 9022

74 . 21648

85 . 1 2116 1

1

₂

2

= − =

′ −

− ′

=

−

= n Y

e e TSS

R RSS

Y Y

0 . 8743 1

) 1 1 (

1

²

2

=

−

− −

−

= n k

R n R

（2）方程的总体线性性检验由下面的 F 检验进行

29 . ) 32 1 2 10 /(

74 . 21648

2 / ) 85 . 2116 74

. 21648 (

) 1 /(

/ ) (

) 1 /(

/

− =

−

= −

−

= −

−

= −

k n TSS

k RSS TSS k

n TSS

k F ESS

在 5%的显著性水平下，自由度为（2，7）的 F 分布的临界值为

F

₀_.₀₅

( 2 , 7 ) = 4 . 74

，可见 32.29>4.74，表明方程的总体线性性显著成立。

由于

(15)

13 . 40 42 . 1610 32536

. 5 41 . 302 ˆ

² ₀₀

ˆ0

= c = × = =

S

_β

σ

1978 . 3 2262 . 10 033816 .

0 41 . ˆ

² ₁₁

302

ˆ1

=

×

=

= c

S

_β

σ

005838 .

0 00003408 .

0 00000011 .

0 41 . ˆ

² ₂₂

302

ˆ2

=

×

=

= c

S

_β

σ

故常数项与 X1、X2前参数的估计值的 t 检验值分别为

612 . 13 15 . 40

509 . ˆ 626

ˆ0

0

= =

=

β

β t S

062 . 1978 3

. 3

79057 . ˆ 9

ˆ1

1

− = −

=

β

β t S

902 . 005838 4 .

0 028618 .

ˆ 0

ˆ2

2

= =

=

β

β t S

在 5%的显著性水平下，自由度为 8 的 t 分布的临界值为

t

₀_.₀₂₅

( 8 ) = 2 . 306

^{，可见常数项及}

X

₁

与

X

₂的总体参数值均显著地异于零。

常数项、

X

₁与

X

₂参数的 95%的置信区间分别为

13 . 40 306 . 2 509 . ˆ 626

ˆ0

025 . 0

0

± ×

_β

= ± ×

β t S

或（533.97， 719.05）

1978 . 3 306 . 2 791 . ˆ 9

ˆ1

025 . 0

1

± ×

_β

= − ± ×

β t S

或（-17.16， -2.42）

0058 . 0 306 . 2 0286 . ˆ 0

ˆ2

025 . 0

2

± ×

_β

= ± ×

β t S

或（0.0152， 0.0421）

在 Eviews 软件下，回归结果如下：

Dependent Variable: Y

Variable Coefficient Std. Error t-Statistic Prob.

C 626.5093 40.13010 15.61195 0.0000

X1 -9.790570 3.197843 -3.061617 0.0183

X2 0.028618 0.005838 4.902030 0.0017

R-squared 0.902218 Mean dependent var 670.3300 Adjusted R-squared 0.874281 S.D. dependent var 49.04504 S.E. of regression 17.38985 Akaike info criterion 8.792975 Sum squared resid 2116.847 Schwarz criterion 8.883751

Log likelihood -40.96488 F-statistic 32.29408

Durbin-Watson stat 1.650804 Prob(F-statistic) 0.000292

（3）将

X

₁

= 35 , X

₂

= 20000

代入回归方程，可得：

) ( 20 . 856 20000 0286

. 0 35 7906 . 9 51 .

626 − × + × = 元

=

Y

；

由于