• 沒有找到結果。

SPSS统计分析方法及应用实验教程 - 万水书苑-出版资源网

N/A
N/A
Protected

Academic year: 2021

Share "SPSS统计分析方法及应用实验教程 - 万水书苑-出版资源网"

Copied!
42
0
0

加載中.... (立即查看全文)

全文

(1)

相关和回归分析是分析客观事物之间相关性的数量分析方法。客观事物之间的关系可分 为函数关系和统计关系。函数关系指客观事物之间的一一对应关系,即当一组变量 xi取一定 值时,另一变量 y 可以依确定的函数取唯一确定的值。统计关系指客观事物之间的一种非一一 对应关系,即当一组变量 xi取一定值时,另一变量 y 无法依确定的函数取唯一确定的值。事 物之间的函数关系比较容易分析,而事物之间的统计关系不像函数关系那样直接。相关和回归 分析正是以不同的方式处理事物间统计关系。

实验一 相关分析

【实验目的】 1.准确掌握相关分析的方法原理。 2.熟练掌握相关分析的 SPSS 操作。

3.了解 Pearson 相关系数、Spearman 相关系数、Kendall’s tau-b 相关系数的计算方法及其 数据的要求。 4.培养运用相关分析解决身边实际问题的能力。 【准备知识】 1.简单相关分析的概念 相关分析是研究变量间关系密切程度的一种统计方法。线性相关分析研究两个变量间线 性关系的强弱程度。相关系数是描述这种线性关系强弱的统计量,通常用 r 表示。 如果一个变量 y 可以确切地用另一个变量 x 的线性函数表示,则两个变量间的相关系数 是 1 或-1。 变量 y 随变量 x 的增加而增加或随着变量 x 的减少而减少,两变量变化方向一致,这种 相关称为正相关,其相关系数大于 0,反之,相关系数小于 0。相关系数 r 没有计量单位,其 值在-1 和 1 之间。 2.相关系数的计算方法 (1)Pearson 相关系数。正态分布定距尺度的变量 x 与变量 y 之间的 Pearson 相关系数可 以用 Pearson 定距相关公式计算,公式为: n i i i 1 n n 2 2 i i i 1 i 1 (x x)(y y) r (x x) (y y)        

式中, x 、 y 分别是变量 x 、 y 的均值,x 、i y 分别是变量i x 、 y 的第 i 个观测值。 (2)Spearman 相关系数。Spearman 相关系数是 Pearson 相关系数的非参数形式,是根据

(2)

数据的秩而不是根据实际值计算的。也就是说,先对原始变量的数据排序,根据秩使用 Spearman 相关系数公式进行计算。它适合定序尺度数据或不满足正态分布假设的定距尺度数 据。Spearman 相关系数的数值也在-1 和 1 之间,绝对值越大,表明相关性越强。变量 x 与变 量 y 间的 Spearman 相关系数计算公式为: i i 2 2 i i (R R)(S S) (R R) (S S)      

式中,R 是第 i 个i x 值的秩,S 是第 i 个 y 值的秩。 R 、i S 分别是变量R 、i S 的平均值。i (3)Kendall’s tau-b 相关系数。Kendall’s tau-b 相关系数也是一种对两个有序变量或两个 秩变量间的关系程度的测度。它在分析时考虑了结点(秩次相同)的影响,适用于两个变量均 为定序尺度数据的情况。Kendall’s tau-b 计算公式如下: i i i j 0 1 0 2 sgn(x x) sgn(y x) (T T )(T T )       

其中, 1 if z 0 sgn(z) 0 if z 0 1 if z 0         0 T n(n2) / 2 T1

t (ti i1) / 2 T2

u (ui i1) / 2 式中,t (或i u )是i x (或 y )的第 i 组结点 x (或 y )值的数目, n 为观测数。 3.关于相关系数统计意义的检验 我们通常是利用样本来研究总体的特性,由于抽样误差的存在,样本中两个变量之间的 相关系数不为 0,不能说明总体中这两个变量间的相关系数不是 0,因此必须进行检验。检验 的零假设是:总体中两个变量间的相关系数为 0。Pearson 和 Spearman 相关系数假设检验 t 值 的计算公式为: 2 n 2 r t 1 r     式中,r 是相关系数,n 是样本观测数,n-2 是自由度。当tt0.05(n2)或 p 0.05 时,拒 绝零假设。 【实验内容】 某地区九个市县社会商品零售总额(亿元)、城市居民年平均收入(万元)、农民年平均 收入(万元),分别记为变量 retail、townsman、farmers。分析变量之间的相关关系(参见基本 数据 5-1.sav)。 【实验步骤】 (1)准备工作。在 SPSS 17.0 中打开数据文件 5-1.sav。 (2)进入相关分析的对话框。选择 Analyze→Correlate→Bivariate 命令,即进行相关分析, 如图 5-1-1 所示,弹出如图 5-1-2 所示的 Bivariate Correlations 对话框。

(3)

图 5-1-1 图 5-1-2

(3)选择所分析变量。

 Correlation Coefficents:相关系数,对于正态分布的定距变量,请选择 Pearson 相关

系数。如果数据不是正态分布,或具有已排序的类别,请选择 Kendall 的 tau-b 或 Spearman,后两者度量秩次之间的相关性。相关系数的值范围为–1(完全负相关) 到+1(完全正相关),0 值表示没有线性关系。在解释结果时请小心谨慎,不要因显 著的相关性而得出任何因果结论。  Test of Significance:显著性检验,可以选择双尾概率(Two-tailed)或单尾概率 (One-tailed)。如果预先已知关联的方向,选择单尾,否则选择双尾。

 Flag significance correlations:标记显著性相关,用一个星号来标识显著性水平为 0.05 的相关系数,用两个星号来标识显著性水平为 0.01 的相关系数。 选择社会商品零售总额、城市居民年平均收入、农民年平均收入变量进入 Variables 框。 (4)选择分析选项。单击图 5-1-2 的 Options 按钮,则弹出 Options 对话框,如图 5-1-3 所示。 图 5-1-3  Statistics:统计量,对于 Pearson 相关性,可以选择以下一项或两项:

 Means and standard deviations:均值和标准差,为每个变量显示,还显示具有非 缺失值的个案数。无论缺失值设置如何,都将逐变量处理缺失值。

 Cross-product deviations and covariances:叉积偏差和协方差,即要求输出各变量 的离差平方和、样本方差、两变量的叉积离差和协方差,为每对变量显示。偏 差的叉积等于校正均值变量的乘积之和,这是 Pearson 相关系数的分子。协方 差是有关两个变量之间关系的一种非标准化度量,等于叉积偏差除以 N-1。

(4)

 缺失值:可以选择以下选项之一。

 Exclude cases pairwise:按对排除个案,会从分析中排除对其计算相关系数的一 对变量中一个或两个含有缺失值的个案。由于每个系数均基于特定变量对具有 有效代码的所有个案,因此在每次计算中会使用可用的最大信息量。这可能因 为个案数不同而产生一组系数。

 Exclude cases listwise:按列表排除个案,从所有相关性中排除对任意变量有缺失 值的个案。

在 Statistics 框中,选择 Cross-product deviations and covariances 选项,然后单击 Continue 按钮返回图 5-1-2。 (5)执行程序。单击图 5-1-2 中的 OK 按钮,则在输出窗口中输出社会商品零售总额、 城市居民年平均收入、农民年平均收入变量之间的相关分析结果。 【实验结果与分析】 结果 5-1-1 表明社会商品零售总额同城市居民年平均收入的相关系数为 0.719,相关性显 著,表明城市居民年平均收入对社会商品零售总额的影响是比较大的。而社会商品零售总额同 农民年平均收入的相关系数为 0.426,相关性不显著。城市居民年平均收入同农民年平均收入 的相关系数为 0.719,相关性显著,表明城市居民同农民的消费观念有所不同。 Correlations 社会商品零售 总额 城市居民 年平均收入 农民年 平均收入 Pearson Correlation 1 .719* .426 Sig. (2-tailed) .029 .253

Sum of Squares and

Cross-products 1755.874 3.264 1.044 Covariance 219.484 .408 .131 社会商品零售总额 N 9 9 9 Pearson Correlation .719* 1 .719* Sig. (2-tailed) .029 .029

Sum of Squares and

Cross-products 3.264 .012 .005 Covariance .408 .001 .001 城市居民年平均收入 N 9 9 9 Pearson Correlation .426 .719* 1 Sig. (2-tailed) .253 .029

Sum of Squares and

Cross-products 1.044 .005 .003

Covariance .131 .001 .000

农民年平均收入

N 9 9 9

*. Correlation is significant at the 0.05 level (2-tailed). 结果 5-1-1

(5)

【实验总结】 统计关系是指两事物之间的一种非一一对应关系,即当一个变量 x 取一定值时,另一变 量 y 无法依确定的函数取唯一确定的值。统计关系可划分为线性相关和非线性相关。 【练习与作业】 1.为研究上海市的金融业对上海市生产总值的影响情况试做相关分析(基本数据见 5-2.sav)。 2.现有一数据集包含一个学校 40 个中学生的基本数据。它包含 5 个变量为:name 学生 的名字,sex 学生的性别,age 学生的年龄,height 以厘米为单位的身高数值,weight 以公斤 为单位的体重数值,基本数据见 2-2.sav。试进行身高和体重的相关分析。

实验二 偏相关分析

【实验目的】 1.准确掌握偏相关分析的方法原理。 2.熟练掌握偏相关分析的 SPSS 操作。 3.培养运用相关分析解决身边实际问题的能力。 【准备知识】 1.偏相关分析的概念 由于其他变量的影响,相关系数往往不能真正反映两个变量间的线性相关程度。偏相关 分析在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。 2.偏相关系数的计算公式 (1)一阶偏相关系数。在 3 个变量中,任意两个变量的偏相关系数是在排除其余一个变 量影响后计算得到的,称为一阶偏相关系数,公式为: ij ih jh ij h 2 2 ih jh r r r r (1 r )(1 r )      式中,r 是变量ij x 与i x 的简单相关系数,j r 是变量ih x 与i x 的简单相关系数,h r 是变量jh xj 与x 的简单相关系数。 h (2)二阶偏相关系数。在 4 个变量中,任意两个变量的偏相关系数是在排除其他两个变 量影响后计算得到的,称为二阶偏相关系数,公式为 ij h im h jm h ij hm 2 2 im h jm h r r r r (1 r )(1 r )           式中,i 、 j 、 h 、 m 分别取 1、2、3、4 的组合。显然,二阶偏相关系数是由一阶偏相关 系数求得。 (3)高价偏相关系数。一般地,假设有 k k 2(  )个变量x , x ,1 2 , xk,则任意两个变量xi

(6)

和x 的j g(g≤k2)阶样本偏相关系数公式为 1 2 g 1 g 1 2 g 1 g 1 2 g 1 1 2 g g 1 2 g 1 g 1 2 g 1 ij l l l il l l l jl l l l ij l l l 2 2 il l l l jl l l l r r r r (1 r )(1 r )                      式中右边均为 g 1 阶的偏相关系数。 3.偏相关系数的检验 偏相关系数检验的零假设为:总体中两个变量间的偏相关系数为 0。使用 t 检验方法,公 式如下: 2 n k 2 r t 1 r      式中, r 是相应的偏相关系数, n 是样本观测数, k 是可控制变量的数目, n k 2  是自 由度。当tt0.05(nk2)或 p 0.05 时,拒绝原假设。 【实验内容】 某农场通过试验取得早稻收获量(y)与春季降雨(x1)和春季温度(x2)的数据,试对 该数据进行偏相关分析,找出早稻收获量的影响因素(参见基本数据 5-3.sav)。 【实验步骤】 (1)准备工作。在 SPSS 17.0 中打开数据文件 5-3.sav。 (2)进入偏相关分析的对话框。选择 Analyze→Correlate→Partial 命令,即进行偏相关分 析,如图 5-2-1 所示,弹出如图 5-2-2 所示的 Partial Correlations 对话框。 图 5-2-1 图 5-2-2 (3)选择所分析变量。

 Test Significance : 显 著 性 检 验 , 可 以 选 择 双 尾 概 率 ( Two-tailed ) 或 单 尾 概 率 (One-tailed)。如果预先已知关联的方向,选择单尾,否则选择双尾。

 Display actual significance level:显示实际显著性水平,默认情况下,将显示每个相 关系数的概率和自由度。如果取消选择此项,则使用单个星号标识显著性水平为 0.05 的系数,使用两个星号标识显著性水平为 0.01 的系数,而不显示自由度。此设置同 时影响偏相关矩阵和零阶相关矩阵。

(7)

选择降雨量和收获量变量进入 Variables 框,选择温度变量进入 Controlling for 框。这是在 排除温度的情况下,降雨量与收获量之间的相关分析。 (4)选择分析选项。单击图 5-2-2 的 Options 按钮,则弹出 Options 对话框,如图 5-2-3 所示。 图 5-2-3  Statistics:统计量,可以选择以下方式中的一个或两个都选:

 Means and standard deviations:均值和标准差,为每个变量显示,还显示具有非 缺失值的个案数。

 Zero-order correlations:零阶相关系数,显示所有变量(包括控制变量)之间简 单相关的矩阵。

 Missing Values:缺失值,可以选择以下选项之一:

 Exclude cases listwise:按列表排除个案,将从所有计算中排除其任何变量(包括 控制变量)具有缺失值的个案。

 Exclude cases pairwise:按对排除个案,对于偏相关所基于的零阶相关的计算, 不使用其一对变量或其中一个变量具有缺失值的个案。按对删除可以充分使用 数据。但是,个案数可能随系数的不同而不同。如果按对删除有效,则某个特 定的偏相关系数的自由度是基于在任何零阶相关计算中使用的最小个案数。 在 Statistics 框中,选择 Means and standard deviations 和 Zero-order correlations 选项,然后 单击 Continue 按钮返回图 5-2-2。 (5)执行程序。单击图 5-2-2 中的 OK 按钮,则在输出窗口中输出变量降雨量与收获量 之间的偏相关分析结果。 【实验结果与分析】 结果 5-2-1 列出温度、降雨量与收获量的均值、标准差和样本数。 Descriptive Statistics Mean Std. Deviation N 降雨量(mm) 79.00 42.430 7 收获量(kg/公顷) 3800.00 1527.525 7 温度(℃) 12.00 4.123 7 结果 5-2-1

(8)

结果 5-2-2 列出了温度、降雨量与收获量之间的简单相关分析和在排除温度的情况下,降 雨量与收获量之间的相关分析。单从温度、降雨量与收获量之间的简单相关分析可以看出三者 之间的相关程度都非常显著。而在排除温度的情况下,降雨量与收获量之间的相关系数为 0.759,相关性在显著性水平=0.05 下不显著,在显著性水平=0.10 下显著。 Correlations Control Variables 降雨量(mm) 收获量(kg/公顷) 温度(℃) Correlation 1.000 .984 .965 Significance (2-tailed) . .000 .000 降雨量(mm) df 0 5 5 Correlation .984 1.000 .990 Significance (2-tailed) .000 . .000 收获量(kg/公顷) df 5 0 5 Correlation .965 .990 1.000 Significance (2-tailed) .000 .000 . -none-a 温度(℃) df 5 5 0 Correlation 1.000 .759 Significance (2-tailed) . .080 降雨量(mm) df 0 4 Correlation .759 1.000 Significance (2-tailed) .080 . 温度(℃) 收获量(kg/公顷) df 4 0

a. Cells contain zero-order (Pearson) correlations.

结果 5-2-2 【实验总结】 在相关性分析中,当两个变量之间简单相关性非常显著的情况下,有可能同其他变量有 间接关系,在这种情况下,就需排除其他变量影响下,分析其两个变量的相关性。 【练习与作业】 1.卫生陶瓷是住宅建筑、宾馆饭店、医院、办公楼等建筑物中不可缺少的建筑材料。卫 生陶瓷的生产与这些建筑的竣工面积有直接的联系。为了研究它们之间的相关关系,搜集了我 国 20 年卫生陶瓷的年需求量及各类建筑竣工面积方面的历史资料。试分析研究上述几个量之 间的相关关系(基本数据见 5-4.sav)。 2.为研究立项课题总数和发表论文数之间的偏相关关系,可以将投入具有高级职称的人 数作为控制变量,分析上述两者之间的偏相关(基本数据见 5-5.sav)。

(9)

实验三 简单线性回归分析

【实验目的】 1.准确理解简单线性回归分析的方法原理。 2.熟练掌握简单线性回归分析的 SPSS 操作。 3.熟练掌握运用简单线性回归方程进行预测的方法。 4.培养运用简单线性回归分析解决身边实际问题的能力。 【准备知识】 1.简单线性回归分析的基本思想 回归分析是定量反映数值型变量之间明显存在相关关系的一种统计推断方法。回归分析 根据自变量的多少可分为简单回归分析和多元回归分析,根据关系类型可分为线性回归分析和 非线性回归分析。简单线性回归分析就是在一个因变量与一个自变量之间进行的线性相关关系 的统计推断。简单线性回归分析的理论模型为: 0 1 y   x  其理论假设为: i 2 i i j E( ) 0 var( ) cov( , ) 0 i j             简单线性回归的核心任务是根据样本数据求出未知参数 和0  的估计值1 ˆ 和0 ˆ ,从而得1 到估计的回归方程: 0 1 ˆ ˆ y    x 检验 是否显著的统计量为 t 统计量。计算公式为: 1 1 1 ˆ ˆ t S    式中, 1 2 i i 2 i ˆ (y y ) S (n 2) (x x)     

当| t | t 2(n2)时,线性关系成立。 2.简单线性回归分析中的拟合优度检验 判定线性回归直线拟合优度的检验统计量为: 2 i 2 2 i ˆ (y y) R (y y)   

式 中 , 2 i (y y) SST

, 称 为 总 平 方 和 , 2 i ˆ (y y) SSR

, 称 为 回 归 平 方 和 , 2 i i ˆ SSESSTSSR

(y y ) ,称为残差平方和。

(10)

为消除自变量个数与样本量大小对判定系数的影响,又引入了调整的R ,计算公式为: 2 调整的 2 2 i i i 2 2 2 i i ˆ ˆ (y y) /(n k 1) (y y ) /(n k 1) R 1 (y y) /(n 1) (y y) /(n 1)             

式中, k 为自变量的个数, n 为样本观测数目。对于一元线性回归方程, k 1 。 3.简单线性回归分析中的 F 检验 回归方程显著性检验的统计量为 F 统计量: 2 2 i 2 2 i i ˆ (y y) / k R / k F ~ F(k, n k 1) ˆ (1 R ) /(n k 1) (y y ) /(n k 1)           

式中, k 为自变量的个数, n 为样本观测数目。对于一元线性回归方程, k 1 。 4.简单线性回归分析中的残差分析 所谓残差是指由回归方程计算所得的预测值与实际值之间的差距,定义为: i i ˆi e y y 它是回归模型中 的估计值,由多个i e 形成的序列称为残差序列。可通过残差分析来证i 实模型假设。 5.简单线性回归分析中的 DW 检验 在对回归模型的诊断中,需要诊断回归模型中残差序列的独立性。如果残差序列不相互 独立,那么根据回归模型的任何估计与假设做出的结论都是不可靠的。检验残差序列相互独立 性的统计量称为 DW 统计量,其取值范围为:0<DW<4。其统计意义为:①若 DW=2,表明相 邻两点的残差项相互独立;②若 0<DW<2,表明相邻两点的残差项正相关;③若 2<DW<4, 表明相邻两点的残差项负相关。 6.简单线性回归分析的基本步骤 (1)由样本数据绘制散点图,判断变量之间是否存在线性相关关系。 (2)确定因变量与自变量,并初步设定回归方程。 (3)估计参数,建立回归预测模型。 (4)利用检验统计量对回归预测模型进行各项显著性检验。 (5)检验通过后,可利用回归模型进行预测,分析评价预测值。 【实验内容】 某驾校的教练对 12 名学员进行了一次模拟考试和一次实地路考,问模拟考试的成绩能否 反映实地路考的成绩(参见基本数据 5-6.sav)? 【实验步骤】 (1)准备工作。在 SPSS 17.0 中打开数据文件 5-6.sav。 (2)进入线性回归分析的对话框。选择 Analyze→Regression→Linear 命令,即进行回归 分析,如图 5-3-1 所示,弹出如图 5-3-2 所示的 Linear Regression 对话框。 (3)选择所分析变量。选择实地路考变量进入 Dependent 框,模拟考试变量进入 Independent(s)框。

(11)

图 5-3-1 图 5-3-2

(4)选择分析统计量。单击图 5-3-2 的 Statistics 按钮,则弹出 Statistics 对话框,如图 5-3-3 所示。

图 5-3-3

 Regression Coefficients:回归系数,估计(Estimates)显示回归系数、的标准误、

标准化系数 beta、的 t 值以及 t 的双尾显著性水平。置信区间(Confidence intervals) 显示每个回归系数或协方差矩阵指定置信度的置信区间;协方差矩阵(Covariance matrix)显示回归系数的方差-协方差矩阵,其对角线以外为协方差,对角线上为方 差,还显示相关矩阵。  Model fit:模型拟合,列出输入模型的变量和从模型移去的变量,并显示以下拟合优 度统计量:复相关系数、R2和调整 R2、估计的标准误以及方差分析表。  R squared change:R2变化,由于添加或删除自变量而产生的 R2统计量的更改。如 果与某个变量相关联的 R2 变化很大,则意味着该变量是因变量的一个良好的预测 变量。  Descriptives:描述性,提供分析中的有效个案数、均值以及每个变量的标准差。还显 示具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。

 Part and partial correlations:偏相关,对于两个变量,在移去由于它们与其他变量之

间的相互关联引起的相关性之后,这两个变量之间剩余的相关性。对于因变量与某个 自变量,当已移去模型中的其他自变量对上述两者的线性效应之后,这两者之间的相 关性。部分相关。对于因变量与某个自变量,当已移去模型中的其他自变量对该自变

(12)

量的线性效应之后,因变量与该自变量之间的相关性。当变量添加到方程时,它与 R2方的更改有关。有时称为半部分相关。  Collinearity diagnostics:共线性诊断,共线性(或者多重共线性)是非理想情况,此 时一个自变量是其他自变量的线性函数。显示已标度和未中心化交叉积矩阵的特征 值、条件指数以及方差-分解比例,以及个别变量的方差膨胀因子(VIF)。  Residuals:残差,显示残差的序列相关系数的 Durbin-Watson 检验,以及满足选择 条件(n 倍标准差以外的离群值)的个案的个案诊断(Casewise diagnostics)。 在 Regression Coefficients 框中,选择 Estimates 选项和 Model fit 选项,即要求输出与回归 系数相关的统计量和输出判定系数、调整的判定系数、回归方程的标准误差、回归方程显著性 检验的方程分析表,然后单击 Continue 按钮返回图 5-3-2。

(5)选择分析选项。单击图 5-3-2 的 Options 按钮,则弹出 Options 对话框,如图 5-3-4 所示。

图 5-3-4

 Stepping Method Criteria:步进方法标准,这些选项在已指定向前、向后或逐步式变

量选择法的情况下适用。变量可以进入到模型中,或者从模型中移去,这取决于 F 值 的显著性(概率)或者 F 值本身。  Use probability of F:使用 F 的概率,如果变量的 F 值的显著性水平小于“输 入”值,则将该变量选入到模型中,如果该显著性水平大于“剔除”值,则将 该变量从模型中移去。“输入”值必须小于“剔除”值,且两者均必须为正数, 要将更多的变量选入到模型中,增加“输入”值,要将更多的变量从模型中移 去,降低“剔除”值。  Use F value:使用 F 的值,如果变量的 F 值大于“输入”值,则该变量输入模 型,如果 F 值小于“剔除”值,则该变量从模型中移去。“输入”值必须大于 “剔除”值,且两者均必须为正数。要将更多的变量选入到模型中,降低“输 入”值,要将更多的变量从模型中移去,增大“剔除”值。

 Include constant equation:在等式中包含常量,缺省情况下,回归模型包含常数项。

取消选择此选项可强制使回归通过原点,实际上很少这样做。某些通过原点的回归结

果无法与包含常数的回归结果相比较。例如,不能以通常的方式解释 R2

 Missing Values:缺失值,可以选择以下选项之一:

 Exclude cases listwise:按列表排除个案,只有所有变量均取有效值的个案才包含 在分析中。

(13)

 Exclude cases pairwise:按对排除个案,使用正被相关的变量对具有完整数据的 个案来计算回归分析所基于的相关系数。自由度基于最小成对 N。

 Replace with mean:使用均值替换,将所有个案用于计算,用变量的均值替换缺 失观察值。 这里选择默认值,然后单击 Continue 按钮返回图 5-3-2。 (6)选择图形选项。单击图 5-3-2 的 Plots 按钮,则弹出 Plots 对话框,如图 5-3-5 所示。 图 5-3-5 图可以帮助验证正态性、线性和方差相等的假设。对于检测离群值、异常观察值和有影 响的个案,图也是有用的。在将它们保存为新变量之后,在数据编辑器中可以使用预测值、残 差和其他诊断以使用自变量构造图。以下图是可用的: 1)散点图。可以绘制以下各项中的任意两种:因变量、标准化预测值、标准化残差、剔 除残差、调整预测值、Student 化的残差或 Student 化的已删除残差。针对标准化预测值绘制 标准化残差,以检查线性关系和等方差性。 2)源变量列表。列出因变量(DEPENDNT)及以下预测变量和残差变量:标准化预测值 (*ZPRED)、标准化残差(*ZRESID)、剔除残差(*DRESID)、调整的预测值(*ADJPRED)、 学生化的残差(*SRESID)以及学生化的已删除残差(*SDRESID)。 3)生成所有部分图。当根据其余自变量分别对两个变量进行回归时,显示每个自变量残 差和因变量残差的散点图。要生成部分图,方程中必须至少有两个自变量。 4)标准化残差图。可以获取标准化残差的直方图和正态概率图,将标准化残差的分布与 正态分布进行比较。 在 Y 框中,选入 ZRESID 选项,在 X 框中,选入 ZPRED 选项,即要求绘制标准化预测 值和标准化残差的散点图。在 Standardized Residual Plots 框中,选择 Histogram 和 Normal Probability plot 选项,即要求输出回归变量的直方图并画出正态曲线,然后单击 Continue 按钮 返回图 5-3-2。 (7)选择保存项。单击图 5-3-2 的 Save 按钮,则弹出 Save 对话框,如图 5-3-6 所示。  Predicted Values:预测值,回归模型对每个个案预测的值。  Unstandardized:未标准化,模型为因变量预测的值。  Standardized:标准化,每个预测值转换为其标准化形式。即预测值减去均值预测值, 得到的差除以预测值的标准差。标准化预测值的均值为 0,标准差为 1。  Adjusted:调整的,当某个案从回归系数的计算中排除时,个案的预测值。

(14)

图 5-3-6

 S.E. of mean predictions:预测均值的 S.E.,预测值的标准误。对于自变量具有 相同值的个案所对应的因变量的均值的标准差的估计。  Distances:距离,标识以下个案的测量,即自变量的值具有异常组合的个案,以及可 能对回归模型产生很大影响的个案。  Mahalanobis:距离,自变量上个案的值与所有个案的平均值相异程度的测量。 大的 Mahalanobis 距离表示个案在一个或多个自变量上具有极值。  Cook's:在特定个案从回归系数的计算中排除的情况下,所有个案的残差变化幅 度的测量。较大的 Cook 距离表明从回归统计量的计算中排除个案之后,系数 会发生根本变化。  Leverage values:杠杆值,度量某个点对回归拟合的影响。集中的杠杆值范围为 从 0(对拟合无影响)到 (N-1)/N。  Predicton Intervals 预测区间。均值和个别预测区间的上界和下界。  Mean:均值,平均预测响应的预测区间的下限和上限(两个变量)。  Individual:个别,单个个案的因变量预测区间的下限和上限(两个变量)。  Confidence Intervat 置信区间。输入 1 到 99.99 之间的值,以指定两个预测区 间的置信度。在输入此值之前必须选择“均值”或“区间”。典型的置信区间值 为 90、95 和 99。  Residuals:残差,因变量的实际值减去按回归方程预测的值。  Unstandardized:未标准化,观察值与模型预测值之间的差。  Standardized:标准化,残差除以其标准差的估计。标准化残差也称为 Pearson 残 差,它的均值为 0,标准差为 1。  Studentized:学生化,残差除以其随个案变化的标准差的估计,这取决于每个个 案的自变量值与自变量均值之间的距离。

(15)

 Deleted:删除,当某个案从回归系数的计算中排除时,该个案的残差。它是因 变量的值和调整预测值之间的差。

 Studentized deleted:Student 化的已删除,个案的剔除残差除以其标准误。Student 化的剔除残差与其相关联的学生化的残差之间的差分去除某个个案对其预测产 生的差分。

 Influence Statistics:影响统计量,由于排除了特定个案而导致的回归系数(DfBeta)

和预测值(DfFit)的变化。标准化 DfBeta 和 DfFit 值也可与协方差比率一起使用。  DfBeta(s):beta 值的差分是由于排除了某个特定个案而导致的回归系数的改变。

为模型中的每一项(包括常数项)均计算一个值。

 Standardized DfBeta(s):标准化 DfBeta,beta 值的标准化差分。由于排除了某个特 定个案而导致的回归系数的改变。可能想要检查除以 N 的平方根之后绝对值大于 2 的个案,其中 N 是个案数。为模型中的每一项(包括常数项)均计算一个值。  DfFit:拟合值的差分是由于排除了某个特定个案而产生的预测变量的改变。  Standardized DfFit:标准化 DfFit,拟合值的标准化差分。由于排除了某个特定

个案而导致的预测值的改变。可能想要检查绝对值大于 p/N 的平方根的 2 倍 的标准化值,其中 p 是模型中的参数个数,N 是个案数。  Covariance ratio:协方差比率,从回归系数计算中排除特定个案的协方差矩阵的 行列式与包含所有个案的协方差矩阵的行列式的比率。如果比率接近 1,则说 明被排除的个案不能显著改变协方差矩阵。  Coefficient statistics:系数统计,将回归系数保存到数据集或数据文件。可以在同一 会话中继续使用数据集,但不会将其另存为文件,除非在会话结束之前明确将其保存 为文件。数据集名称必须符合变量命名规则。

 Export model information to XML .file:将模型信息输出到 XML 文件,将参数估计值 及其(可选)协方差导出到指定的 XML(PMML)格式的文件。SmartScore 和 SPSS Statistics Server(独立的产品)可使用该模型文件将模型信息应用到其他数据文件以 达到得分目的。 这里不保存任何值,然后单击 Continue 按钮返回图 5-3-2。 (8)执行程序。单击图 5-3-2 中的 OK 按钮,则在输出窗口中输出变量实地路考和模拟 考试的回归分析结果。 【实验结果与分析】 结果 5-3-1 为实地路考和模拟考试之间的可决系数为 0.966,修正的可决系数为 0.963。 Model Summaryb

Model R R Square Adjusted R Square Std. Error of the

Estimate

1 .983a .966 .963 2.758

a. Predictors: (Constant), 模拟考试 b. Dependent Variable: 实地路考

(16)

结果 5-3-2 为实地路考和模拟考试之间的 F 统计量为 287.374,检验的概率值为 0.0000, 从结果中可见,整个方程是非常显著的。

ANOVAb

Model Sum of Squares df Mean Square F Sig.

Regression 2185.934 1 2185.934 287.374 .000a Residual 76.066 10 7.607 1 Total 2262.000 11 a. Predictors: (Constant), 模拟考试 b. Dependent Variable: 实地路考 结果 5-3-2 结果 5-3-3 为模拟考试的 t 检验,其值为 16.952,相应的检验概率为 0.000,是非常显著的。 Coefficientsa

Unstandardized Coefficients Standardized

Coefficients Model B Std. Error Beta t Sig. (Constant) -.520 4.758 -.109 .915 1 模拟考试 .991 .058 .983 16.952 .000 a. Dependent Variable: 实地路考 结果 5-3-3 结果 5-3-4 为方程的残差统计量,列出了预测值、残差,标准化的基本统计量。 Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value 51.01 96.59 79.00 14.097 12 Residual -3.007 7.239 .000 2.630 12 Std. Predicted Value -1.986 1.248 .000 1.000 12 Std. Residual -1.090 2.625 .000 .953 12 a. Dependent Variable: 实地路考 结果 5-3-4 结果 5-3-5 为实地路考的直方图,从图中可以看出实地路考的正态性是比较好的。 结果 5-3-6 为实地路考的标准化回归残差的 P-P 图,从图可以看出数据点围绕基准线之间 的规律性比较明显。

(17)

结果 5-3-5 结果 5-3-6 结果 5-3-7 为实地路考简单线性回归分析的残差图。随着标准化预测值的变化,残差点在 0 线周围随机分布,残差的等方差性比较好。 【实验总结】 通过样本数据建立回归方程后一般不能立即用于对实际问题的分析和预测,通常要进行 各种统计检验,主要包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著 性检验、残差分析等。

(18)

结果 5-3-7

【练习与作业】

1.为研究上海市的金融业对上海市生产总值的影响情况,试做简单回归分析,看其影响 程度(基本数据见 5-2.sav)。

2.现有一数据集包含一个学校 40 个中学生的基本数据。它包含 5 个变量为:name 学生 的名字,sex 学生的性别,age 学生的年龄,height 以厘米为单位的身高数值,weight 以公斤 为单位的体重数值,试进行身高和体重的简单回归分析(基本数据见 2-2.sav)。

实验四 多元线性回归分析

【实验目的】 1.准确理解多元线性回归分析的方法原理。 2.熟练掌握多元线性回归分析的 SPSS 操作。 3.掌握样本回归系数和回归方程显著性检验的方法。 4.掌握任何利用回归方程进行预测。 5.培养运用多元线性回归分析方法解决身边实际问题的能力。 【准备知识】 1.多元线性回归分析的基本原理 多元线性回归模型是指含有多个自变量的线性回归模型,用于解释因变量与其他多个自 变量之间的线性关系。 多元线性回归模型数学表达式为: 0 1 1 2 2 k k y   x   x   x   式中,因变量 y 的变化可由两个部分解释:一是由 k 个自变量 x 的变化引起的 y 的变化部

(19)

分;二是由其他随机因素引起的 y 的变化部分,即  。 、0  、1  、 、2  是模型中的未知k 参数,分别称为回归常数和偏回归系数,  称为误差,是一个随机变量。 根据样本数据得到未知参数 、0  、1  、 、2  的估计量k ˆ 、0 ˆ 、1 ˆ 、 、2 ˆ ,于k 是有: 0 1 1 2 2 k k ˆ ˆ ˆ ˆ y    x   x   x 2.回归系数的检验 多元线性回归分析中,回归系数显著性检验的零假设为:H :0   ( ii 0 1, 2,, k),即第 i 个偏回归系数与0 无显著差异。检验 的显著性的统计量为 t 统计量。计算公式为: i i i i ˆ ˆ t S    式中, i 2 i i ˆ 2 ji i ˆ (y y ) S (n k 1) (x x )      

当| t | t 2(nk 1) 时,拒绝零假设。 3.回归方程的 F 检验 多元线性回归方程显著性检验的零假设为:H :0    1 2   k 0,检验的统计量为 F 统计量: 2 2 i 2 2 i i ˆ (y y) / k R / k F ~ F(k, n k 1) ˆ (1 R ) /(n k 1) (y y ) /(n k 1)           

式中, k 为自变量的个数, n 为样本观测数目。SPSS 自动将 F 值与概率 P 值相对应,如 果 P 值小于给定的显著性水平  ,则拒绝零假设。 4.多元线性回归分析的基本步骤 (1)确定因变量与自变量,并初步设定多元线性回归方程。 (2)估计参数,确定估计多元线性回归方程。 (3)利用检验统计量对回归预测模型进行各项显著性检验。 (4)检验通过后,可利用回归模型进行预测,分析评价预测值。 【实验内容】 研究耗氧量模型。这是有关身体适应性测试的例子,将肺活量与一些简单的锻炼测试数 据进行拟合,目的是为了在锻炼测试的基础上而不是在昂贵笨重的仪器设备的氧气消耗测试的 基础上得到方程来预测适应性(参见基本数据 5-7.sav)。 【实验步骤】 (1)准备工作。在 SPSS 17.0 中打开数据文件 5-7.sav。 (2)进入线性回归分析的对话框。选择 Analyze→Regression→Linear 命令,即进行回归 分析,如图 5-4-1 所示,弹出如图 5-4-2 所示 Linear Regression 对话框。 (3)选择所分析变量。选择耗氧量变量进入 Dependent 框,选择其余进入 Independent(s)

(20)

框,在 Method 下拉框中选择 Stepwise,即选择逐步筛选策略。

图 5-4-1 图 5-4-2

(4)选择分析统计量。单击图 5-4-2 的 Statistics 按钮,则弹出 Statistics 对话框,如图 5-4-3 所示。

在 Regression Coefficients 框中,选择 Estimates 选项、Model fit 选项和 R squared change 选项,即要求输出与回归系数相关的统计量和输出判定系数、调整的判定系数、回归方程的标 准误差、回归方程显著性检验的方程分析表,输出每个解释变量进入方程后引起的判定系数的 变化量和 F 值的变化量。

在 Residuals 框中,选择 Durbin-Watson 选项,即输出方程的 DW 检验值,然后单击 Continue 按钮返回图 5-4-2。

(5)选择图形选项。单击图 5-4-2 的 Plots 按钮,则弹出 Plots 对话框,如图 5-4-4 所示。

图 5-4-3 图 5-4-4

在 Y 框中,选入 ZRESID 选项,在 X 框中,选入 ZPRED 选项,即要求绘制标准化预 测值和标准化残差的散点图。在 Standardized Residual Plots 框中,选择 Normal probability plot 选项,即要求绘制标准化残差序列的正态分布累计概率图,然后单击 Continue 按钮返 回图 5-4-2。

(6)选择保存项。单击图 5-4-2 的 Save 按钮,则弹出 Save 对话框,如图 5-4-5 所示。 在 Predicted Values 框中,选择 Standardized 选项,即要求输出标准化预测值。在 Residual

(21)

框中,选择 Standardized 选项,即要求输出标准化残差,然后单击 Continue 按钮返回图 5-4-2。 图 5-4-5 (7)选择分析选项。单击图 5-4-2 的 Options 按钮,则弹出 Options 对话框,如图 5-4-6 所示。 图 5-4-6 这里选择默认值,然后单击 Continue 按钮返回图 5-4-2。 (8)执行程序。单击图 5-4-2 中的 OK 按钮,则在输出窗口中输出变量耗氧量的逐步筛 选策略的回归分析结果。 (9)残差分析。利用输出的标准化残差值,对其进行非参数检验。 (10)相关性分析。为研究残差的等方差性,计算残差和预测值的 Spearman 等级相关系 数。具体过程参见本章的相关性分析实验。

(22)

【实验结果与分析】 结果 5-4-1 为逐步筛选过程,从中可知只经过一步完成回归方程的建立。剔除方程的变量 是年龄、体重、休息时每分钟心跳次数、跑步时每分钟心跳次数、每分钟心跳次数最大值。最 终保留在方程中的变量是跑 15 英里的时间。方程的 DW 检验值为 1.920,残差存在一定程度 的正相关。 Model Summaryb Change Statistics Model R R Square Adjusted R Square Std. Error of the Estimate R Square Change F Change df1 df2 Sig. F Change Durbin-Watson 1 .851a .725 .715 2.83066 .725 76.421 1 29 .000 1.920 a. Predictors: (Constant), 跑 15 英里的时间 b. Dependent Variable: 耗氧量 结果 5-4-1 结果 5-4-2 是最终的方程。如果显著性水平  为 0.05,由于回归方程显著性检验的概率 p 值 小于显著性水平  ,因此被解释变量与解释变量间的线性关系显著,建立线性模型是恰当的。 ANOVAb

Model Sum of Squares df Mean Square F Sig.

Regression 612.335 1 612.335 76.421 .000a Residual 232.367 29 8.013 1 Total 844.702 30 a. Predictors: (Constant), 跑 15 英里的时间 b. Dependent Variable: 耗氧量 结果 5-4-2 结果 5-4-3 显示了模型中各解释变量的回归系数、回归系数显著性检验的情况。如果显著 性水平为 0.05,其回归系数显著性检验的概率 p 值小于显著性水平,因此跑 15 英里的时间 与被解释变量间的线性关系显著,它保留在模型中是合理的。最终的回归方程是,耗氧量 =81.944-3.256 跑 15 英里的时间。 Coefficientsa

Unstandardized Coefficients Standardized

Coefficients Model B Std. Error Beta t Sig. (Constant) 81.944 3.976 20.610 .000 1 跑 15 英里的时间 -3.256 .372 -.851 -8.742 .000 a. Dependent Variable: 耗氧量 结果 5-4-3 结果 5-4-4 显示了变量剔除方程的过程。各数据项的含义依次是:如果该变量保留在模型

(23)

中,其标准化回归系数、 t 检验值和概率 p 值将是什么。例如,如果保留年龄,那么它的标准 化回归系数将为-0.153,但回归系数的检验不显著(概率 p 值为 0.964)。

Excluded Variablesb

Collinearity Statistics

Model Beta In t Sig. Partial Correlation

Tolerance 年龄 -.153a -1.582 .125 -.286 .964 体重 -.042a -.421 .677 -.079 .979 休息时每分钟心跳次数 .003a .032 .975 .006 .840 跑步时每分钟心跳次数 -.134a -1.323 .196 -.243 .902 1 每分钟心跳次数最大值 -.043a -.422 .676 -.079 .949

a. Predictors in the Model: (Constant), 跑 15 英里的时间 b. Dependent Variable: 耗氧量

结果 5-4-4

结果 5-4-5 回归模型的残差统计量。列出了预测值、残差、预测值标准差和残差标准差的 最小值、最大值、均值、标准差、样本数。

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value 36.2582 55.3403 47.4726 4.51787 31 Residual -5.45170 6.21263 .00000 2.78309 31 Std. Predicted Value -2.482 1.741 .000 1.000 31 Std. Residual -1.926 2.195 .000 .983 31 a. Dependent Variable: 耗氧量 结果 5-4-5 结果 5-4-6 为数据点围绕基准线的图形,从图中可以看出数据点围绕基准线还存在一定的 规律性,需对残差作进一步的分析。 结果 5-4-6

(24)

结果 5-4-7 为耗氧量多元线性回归分析的残差图。随着标准化预测值的变化,残差点在 0 线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。这表明也需要对 残差作进一步的分析。 结果 5-4-7 结果 5-4-8 为各个样本的标准化预测值和标准化残差。 结果 5-4-8 结果 5-4-9 表明标准化残差与标准正态分布不存在显著差异,可以认为残差满足了线性模 型的前提要求。

One-Sample Kolmogorov-Smirnov Test

Standardized Residual

N 31

Mean .0000000

Normal Parametersa,,b

Std. Deviation .98319208

Absolute .052

Positive .042

Most Extreme Differences

Negative -.052

Kolmogorov-Smirnov Z .289

Asymp. Sig. (2-tailed) 1.000

a. Test distribution is Normal. b. Calculated from data.

(25)

结果 5-4-10 为残差与预测值的 Spearman 等级相关系数分析。其 Spearman 等级相关系数 为-0.057,检验并不显著,因此认为异方差现象并不明显。 Correlations Standardized Predicted Value Standardized Residual Correlation Coefficient 1.000 -.057 Sig. (2-tailed) . .760

Standardized Predicted Value

N 31 31 Correlation Coefficient -.057 1.000 Sig. (2-tailed) .760 . Spearman's rho Standardized Residual N 31 31 结果 5-4-10 【实验总结】 在多元线性回归分析中,由于被解释变量会受众多因素的共同影响,需要由多个解释变 量解释,于是会出现诸如此类的问题:多个变量是否都能进入线性回归模型,解释变量应以怎 样的策略和顺序进入方程,方程中多个解释变量之间是否存在多重共线性等。 【练习与作业】 1.为研究我国民航客运量的变化趋势及其成因,试以民航客运量(万人)做因变量(y), 以国民收入(x1,亿元)、消费额(x2,亿元)、铁路客运量(x3,万人)、民航航线里程(x4, 万公里)、来华旅游入境人数(x5,万人)为自变量,根据 1978~1993 年统计数据采用不同方 法进行多元线性回归分析(参见基本数据 5-8.sav)。 2.某研究所为研究儿童的智力状况,调查 16 所小学六年级学生的平均言语测验得分(y), 与家庭社会经济状况综合指标(x1)、教师言语测验得分(x2)及母亲教育水平(x3),试进行 多元线性回归分析(参见基本数据 5-9.sav)。

实验五 曲线估计

【实验目的】 1.准确理解曲线回归的方法原理。 2.了解任何将本质线性关系模型转化为线性关系模型进行回归分析。 3.熟练掌握曲线估计的 SPSS 操作。 4.掌握如何就样本数据在 11 种不同的曲线模型中选择建立简单又适合的模型。 5.掌握建立合适曲线模型的判断依据。 6.掌握如何利用曲线回归方程进行预测。 7.培养运用曲线估计解决身边实际问题的能力。

(26)

【准备知识】 1.非线性模型的基本内容 变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。所谓本质线性关系 是指变量形式上虽然呈非线性关系,但可以通过变量变换转化为线性关系,并可最终进行线性 回归分析,建立线性模型。本质非线性关系是指变量之间不仅形式上呈非线性关系,而且也无 法通过变量变换转化为线性关系,最终无法进行线性回归分析,建立线性模型。 本质线性模型的类型划分见表 5-5-1。 表 5-5-1 本质线性模型的类型 模型名 回归方程 线性转化形式 二次曲线(Quadratic) 2 0 1 2 y=β +β x+β x y   0 1x 2 1x (令x1x2) 复合曲线(Compound) x 0 1 y    ln(y)ln(0)ln( )x1 增长曲线(Growth) ye 0 1x ln(y)   0 1x 对数曲线(Logarithmic) y   0 1ln(x) y   0 1 1x (令x1ln(x)) 三次曲线(Cubic) 2 3 0 1 2 3 y   x  x   x y   0 1x 2 1x  3 2x (令 2 1 x x x2x3) S 曲线(S) 0 1 x y e     ln(y)   0 1 1x (令 1 1 x x  ) 指数曲线(Exponential) 1x 0 y e ln(y)ln(0) 1x 逆函数(Inverse) 1 0 y x     y   0 1 1x (令x1 1 x  ) 幂函数(Power) 1 0 y  (x ) ln(y)ln(0) 1ln(x) 逻辑函数(Logistic) x 0 1 1 y 1      0 1 1 1 ln( ) ln( ) ln( )x y     2.曲线估计的基本步骤 (1)绘制因变量与自变量的散点图,大致确定非线性关系的类型。 (2)选择多个曲线回归预测模型,估计参数。 (3)利用输出的检验统计量对回归预测模型进行各项显著性检验。 (4)选择一种最适合的曲线模型进行预测。 (5)分析评价预测效果。 【实验内容】 测得云杉平均树高 h(米)和平均树径 d(厘米)之间的数据,试分别拟合平均树高和平 均树径之间的二次函数、幂函数、指数函数、对数函数,并选择一种最适合的回归模型(参见 基本数据 5-10.sav)。

(27)

【实验步骤】

(1)准备工作。在 SPSS 17.0 中打开数据文件 5-10.sav。

(2)绘制散点图。选择 Graphs→Legacy Dialogs→Scatter/Dot 命令,即进行散点图绘制, 如图 5-5-1 所示,弹出如图 5-5-2 所示的 Scatter/Dot 对话框。

图 5-5-1 图 5-5-2

(3)选择图形类型。选择 Simple Scatter 类型的散点图,单击 Define 按钮,进行变量的 选取。

(4)选择变量。选择平均树高变量进入 Y Axis 框,选择平均树径变量进入 X Axis 框, 即对变量平均树高和平均树径绘制散点图。单击 OK 按钮即可,如图 5-5-3 所示。

(28)

(5)进行曲线回归。选择 Analyze→Regression→Curve Estimation 命令,即进行曲线回归 分析,如图 5-5-4 所示,弹出如图 5-5-5 所示的 Curve Estimation 对话框。

图 5-5-4

图 5-5-5

(6)选择分析变量。

 Include constant in equation:等式中包含常量,估计回归方程式中的常数项。缺省情

况下包含常数。

 Plot models:根据模型绘图,对照自变量绘制因变量的值和每个选定的模型为每个因

变量产生一个单独的图表。

 Display ANOVA table:显示 ANOVA 表格,为每个选定的模型显示摘要方差分析表。

 Models:模型。  Linear:线性,方程为 Y = b0 + (b1 * t)的模型。按时间的线性函数建模的序列值。  Logarithmic:对数,方程为 Y = b0 + (b1 * ln(t)) 的模型。  Inverse:逆模型,方程为 Y=b0+(b1/t)的模型。  Quadratic:二次,方程为 Y = b0 + (b1 * t) + (b2 * t^2) 的模型。二次模型可用来 对“减弱”的序列或阻尼衰减的序列进行建模。  Cubic:三次,由方程 Y=b0+(b1*t)+(b2*t^2)+(b3*t^3)定义的模型。  Power:幂,方程式为 Y = b0 * (t^b1) 或 ln(Y) = ln(b0) + (b1 * ln(t)) 的模型。  Compound:复合,方程为 Y = b0 * (b1^t) 或 ln(Y) = ln(b0) + (ln(b1) * t) 的模型。

(29)

 S:方程式为 Y = e^ (b0 + (b1/t)) 或 ln(Y) = b0 + (b1/t) 的模型。

 Logistic:逻辑,方程为 Y=1/(1/u+(b0*(b1^t)))或 ln(1/y-1/u)=ln(b0)+(ln(b1)*t)的模 型,其中 u 是上界值。选择“逻辑”之后,请指定用在回归方程中使用的上界 值。该值必须是一个大于最大因变量值的正数。

 Growth:增长,方程式为 Y=e^ (b0+(b1*t))或 ln(Y)=b0+(b1*t)的模型。

 Exponential:指数,方程为 Y = b0 * (e^(b1 * t))或 ln(Y) = ln(b0) + (b1*t)的模型。 选择平均树高变量进入 Dependent(s)框,选择平均树径变量进入 Variable 框。在 Models 框中,选择 Quadratic 选项、Logistic 选项、Exponential 选项、Power 选项,即选择二次函数、 逻辑函数、指数函数和幂函数模型。

(7)保存变量。单击图 5-5-5 的 Save 按钮,则弹出 Save 对话框,如图 5-5-6 所示。

图 5-5-6

 Save Variables:保存变量。对于每个选定的模型,可以保存预测值(Predicted values)、

残差(Residuals)(因变量的观察值减去模型预测值)和预测区间(Prediction intervals)

(上限和下限)。新变量名称和描述标签显示在输出窗口中的表中。

 Predict Cases:预测个案。在数据集中,如果选择时间而不是变量作为自变量,则可

以指定超出时间序列结尾的预测期。可以选择以下选项之一:

 Predict from estimation period through last case:从估计期到最后一个个案的预测。 在估计期内的个案的基础上预测文件中所有个案的值。显示在对话框底端的估 计期可通过“数据”菜单上的“选择个案”选项的“范围”子对话框来定义。 如果未定义任何估计期,则使用所有个案来预测值。  Predict through:预测范围。根据估计期中的个案,预测指定日期、时间或观察 号范围内的值。此功能可以用于预测超出时间序列中最后一个个案的值。 这里不做任何选择,然后单击 Continue 按钮返回图 5-5-5。 (8)执行程序。单击图 5-5-5 中的 OK 按钮,则在输出窗口中输出变量平均树高的曲线 回归分析结果。 【实验结果与分析】 结果 5-5-1 为平均树高和平均树径的散点图。从图中可以看出曲线呈现上凸,可以用二次 函数、逻辑函数、指数函数和幂函数进行模拟。

(30)

结果 5-5-1

结果 5-5-2 为解释变量和被解释变量的样本情况。平均树高、平均树径没有缺失数据。

Variable Processing Summary

Variables

Dependent Independent

平均树高 平均树径

Number of Positive Values 11 11

Number of Zeros 0 0

Number of Negative Values 0 0

User-Missing 0 0

Number of Missing Values

System-Missing 0 0

结果 5-5-2

结果 5-5-3 为二次曲线拟合的拟合优度,可决系数为 0.998,是比较高的。 Quadratic

Model Summary

R R Square Adjusted R Square Std. Error of the

Estimate

.999 .998 .997 .310

The independent variable is 平均树径. 结果 5-5-3

(31)

结果 5-5-4 为二次曲线拟合的回归方程显著性检验。F 统计量为 1653.395,方程是非常显 著的。

ANOVA

Sum of Squares df Mean Square F Sig.

Regression 318.597 2 159.298 1653.395 .000

Residual .771 8 .096

Total 319.367 10

The independent variable is 平均树径.

结果 5-5-4

结果 5-5-5 为曲线的回归系数检验。回归系数的 t 值为 20.906 和-11.384,相应的检验概率 都为 0.000,都非常显著。

Coefficients

Unstandardized Coefficients Standardized

Coefficients B Std. Error Beta t Sig. 平均树径 .720 .034 2.112 20.906 .000 平均树径 ** 2 -.005 .000 -1.150 -11.384 .000 (Constant) 4.595 .626 7.337 .000 结果 5-5-5 结果 5-5-6 为二次函数、逻辑函数、指数函数和幂函数四类模型的拟合优度、方程显著性 统计量和回归系数统计量。从中可知,逻辑函数、二次函数、幂函数的拟合优度都比较高,因 此可优先考虑采用这三个模型。

Model Summary and Parameter Estimates Dependent Variable:平均树高

Model Summary Parameter Estimates

Equation

R Square F df1 df2 Sig. Constant b1 b2

Logarithmic 1.000 30993.026 1 9 .000 -18.527 11.951

Quadratic .998 1653.395 2 8 .000 4.595 .720 -.005

Power .986 641.546 1 9 .000 3.396 .541

Exponential .903 83.399 1 9 .000 13.177 .015

The independent variable is 平均树径.

结果 5-5-6

(32)

结果 5-5-7 【实验总结】 在曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时可选择几种比较接近 的模型;然后自动完成相应模型的参数估计,并输出回归方程显著性检验的 F 值和概率 p 值、 判定系数 2 R 等统计量;最后以判定系数为主要依据选择其中的最优模型,并进行预测分析等。 【练习与作业】 1.观察某地破伤风预防接种率与发病率,试问:何种回归模型最能综合表达该地破伤风 发病率(y)与预防接种率(x)的关系(数据见 5-11.sav)。 2.有一数据如表 5-5-2 所示,研究其用哪一种曲线模型来拟合更合适,并给出你的理由。 表 5-5-2 x 20 30 40 50 60 70 80 90 100 110 y 0.57 0.72 0.81 0.87 0.91 0.94 0.95 0.97 0.98 0.99 x 120 130 140 150 160 170 180 190 200 210 y 1 0.99 0.99 1 1 0.99 1 1 0.99 1

实验六 二项 Logistic 回归分析

【实验目的】 1.准确理解二项 Logistic 回归分析的方法原理。 2.熟练掌握二项 Logistic 回归分析的 SPSS 操作。 3.掌握二项 Logistic 回归方程显著性检验。 4.培养运用二项 Logistic 回归分析方法解决身边实际问题的能力。

(33)

【准备知识】 1.二项 Logistic 回归分析的背景 当被解释变量为 0/1 二值品质型变量时,建立一般的多元线性回归模型会出现以下问题: (1)残差不再满足 E( ) 0  且Var( )   的假设条件。 2 (2)残差不再服从正态分布。 (3)被解释变量的取值区间受限制。 2.二项 Logistic 回归模型 0 i i LogitP   x 该模型就是 Logistic 回归模型,其中,LogitP ln P 1 P      。 3.二项 Logistic 回归方程的检验 (1)回归方程的显著性检验。Logistic 回归方程显著性检验的目的是检验解释变量全体 与 LogitP 的线性关系是否显著,是否可以用线性模型拟合。其零假设是:各回归系数同时为 0, 解释变量全体与 LogitP 的线性关系不显著。 其检验统计量为 i i i 2 x x x L L

log 2 log 2 log(L ) ( 2 log(L))

L L                   ,近似服从卡方分布, 通常称此为似然比卡方。 (2)回归系数的显著性检验。回归系数显著性检验采用的检验统计量是 Wald 统计量, 数学定义为 I i i ˆ ˆ Wald S           其中,ˆ 是回归系数,i I ˆ S  是回归系数的标准误差。Wald 检验统计量服从自由度为 1 的卡 方分布。 (3)回归方程的拟合优度检验。在 Logistic 回归分析中,拟合优度可以从两个方面考察: 第一,回归方程能够解释被解释变量变差的程度;第二,由回归方程计算出的预测值与实际值 之间吻合程度。常用的指标有:

①Cox & Snell R 统计量。 2

Cox & Snell

2 n 2 L0 R 1 L         ②Nagelkerke 2 R 统计量。 Nagelkerke 2 2 2 n 0

Cox & Snell R R 1 (L )   NagelkerkeR 的取值范围在 0 至 1 之间。越接近于 1,说明方程的拟合优度越高。 2 ③错判矩阵。 总体正确率为 11 22 11 12 21 22 f f f f f f     ,f 是实际值为12 0 预测值却为 1 的个数。当正确率越高

(34)

意味着模型越好。 Hosmer ④ -Lemeshow 统计量。 当解释变量较多且多是定距型变量时,常使用 Hosmer-Lemeshow 统计量。 (4)残差分析。Logistic 回归中常用的残差分析有:非标准化残差、标准化残差、Logit 残差 等。非标准化残差定义为:eiyip (yi 1 | x )i ;标准化残差定义为:Standard i i i i i i i y n p e n p (1 p )    ; Logit 残差定义为 i i i i e Logit e p (1 p )   。 【实验内容】 研究三种同类药物和病情情况对某病治疗有无效果。疗效分为有效和无效两个等级。试 用多项 Logistic 模型进行分析疗效与药物和病情的关系(参见基本数据 5-12.sav)。 【实验步骤】 (1)准备工作。在 SPSS 17.0 中打开数据文件 5-12.sav。 (2)数据加权。选择 Data→Weight Cases 命令,即进行数据加权,如图 5-6-1 所示。 图 5-6-1

选择 Weight cases by(个案加权),并将频数变量选入 Frequency Variable,如图 5-6-2 所示。

图 5-6-2

单击 OK 按钮,完成数据加权。

(3)进入 Logistic 回归分析的对话框。选择 Analyze→Regression→Binary Logistic 命令, 即进行 Logistic 回归分析,如图 5-6-3 所示,弹出如图 5-6-4 所示的 Logistic Regression 对话框。

(35)

图 5-6-3 图 5-6-4 (4)选择所分析变量。  Method:变量选择方法。  Enter:一种变量选择过程,其中一个块中的所有变量在一个步骤中输入。  Forward:Conditional:向前选择(条件),逐步选择方法,其中进入检验是基于得 分统计量的显著性,移去检验是基于在条件参数估计基础上的似然比统计的概 率。  Forward:LR:向前选择(似然比),逐步选择方法,其中进入检验是基于得分统 计量的显著性,移去检验是基于在最大局部似然估计的似然比统计的概率。  Forward:Wald:向前选择(Wald),逐步选择方法,其中进入检验是基于得分统 计量的显著性,移去检验是基于 Wald 统计的概率。  Backward:Conditional:向后去除(条件),逐步向后选择。移去检验基于在条件 参数估计的似然比统计量的概率。  Backward:LR:向后去除(似然比),逐步向后选择,移去检验基于在最大偏似 然估计基础上的似然比统计量的概率。  Backward:Wald:向后去除(Wald),逐步向后选择。移去检验基于 Wald 统计 量的概率。 选择是否有效变量进入 Dependent 框,选择药物、病情变量进入 Covariates 框。

(5)生成虚拟变量。单击图 5-6-4 的 Categorical 按钮,则弹出 Define Categorical Variables 对话框,如图 5-6-5 所示。

(36)

图 5-6-5  Change Contrast:更改对比,可用于更改对比方法。可用的对比方法(Contrast)有:  Indicator:指示符,这些对比指示类别成员资格是否存在。参考类别在对比矩阵 中表示为一排“0”。  Simple:简单,除参考类别外,预测变量的每个类别都与参考类别相比较。  Difference:差分,除第一个类别外,预测变量的每个类别都与前面的类别的平 均效应相比较,也称为逆 Helmert 对比。  Helmert:除最后一个类别外,预测变量的每个类别都与后面的类别的平均效应 相比较。  Repeated:重复,除第一个类别外,预测变量的每个类别都与它前面的那个类别 进行比较。  Polynomial:多项式,正交多项式对比。假设类别均匀分布,多项式对比仅适用 于数值变量。  Deviation:偏差,除参考类别外,预测变量的每个类别都与总体效应相比较。 如果选择偏差、简单或指示符,则可以选择第一个(First)或最后一个(Last)作为参考 类别(Reference Category)。注意,直到单击更改(Change)后,该方法才实际发生更改。 这里不做任何选择,然后单击 Continue 按钮返回图 5-6-4。 (6)选择分析选项。单击图 5-6-4 的 Options 按钮,则弹出 Options 对话框,如图 5-6-6 所示。 图 5-6-6

 Statistics and Plots:统计量和图,允许显示统计量和图。可用选项有“分类图”

(37)

“个案的残差列表”(Casewise listing of residuals)、“估计的相关性”(Correlations of estimates)、“迭代历史记录”(Iteration history)以及“exp(B)的置信界限”(CI for

exp(B))。在“显示”组中选择一个选项,用于显示统计量和图,可在每步中显示, 或只在最后一步为最终模型显示。  Hosmer-Lemeshow goodness-of-fit:Hosmer-Lemeshow 拟合度,此拟合度统计比 用于 logistic 回归中所用的传统拟合度统计更稳健,特别是对于具有连续协变量 的模型和使用小样本的研究。统计基于将个案分组为不同的风险度十分位数并 比较每个十分位数中的已观察到的概率与期望概率。

 Probability for Stepwise:步进概率,允许控制变量输入方程和从方程中移去的条件。

可指定“输入”(Entry)或“剔除”(Removal)变量的条件。

 Probability for Stepwise:步进概率,如果某个变量的得分统计概率小于“输入” 值,则向模型中输入该变量;如果该概率大于“剔除”值,则移去该变量。要 覆盖缺省设置,请为“输入”和“剔除”输入正值。“输入”必须小于“剔除”。  Classification cutoff:分类标准值,允许确定分类个案的割点。具有大于分类界限值 的预测值的个案被分类为正,具有小于分类界限值的预测值的个案分类为负。要更改 缺省值,请输入一个 0.01 到 0.99 之间的值。  Maximum Iterations:最大迭代次数,允许更改模型在终止前的最大迭代次数。

 Include constant in model:在模型中包含常数,允许指定模型是否应包含常数项。如

果禁用此选项,则常数项将等于 0。

在 Statistics and Plots 框中,选择 Classification plots 选项、Hosmer-Lemeshow goodness-of-fit 选项、CI for exp(B)选项,即要求绘制被解释变量实际值与预测分类值的关系图、输出 Hosmer-Lemeshow 拟合优度指标和风险比默认 95%的置信区间,然后单击 Continue 按钮返回 图 5-6-4。

(7)保存变量。单击图 5-6-4 的 Save 按钮,则弹出 Save 对话框,如图 5-6-7 所示。

图 5-6-7

 Predicted Values:预测值,保存由模型预测的值,可用选项有“概率”(Probabilities)

和“组成员资格”(Group membership)。

 Probabilities:概率,对于每个个案,保存事件发生的预测概率。输出中的表显 示了任何新变量的名称和内容。

(38)

 Group membership:预测组成员资格,基于判别得分,具有最大后验概率的组。 模型预测该个案所属的组。

 Influence:影响,保存来自测量个案对预测值影响的统计量的值。可用选项有“Cook

距离”、“杠杆值”和“DfBeta”。

 Cook’s:Cook 距离,Cook 距离影响统计的 Logistic 回归模拟。在特定个案从 回归系数的计算中排除的情况下,所有个案的残差变化幅度的测量。  Leverage values:杠杆值,每个观察值对模型拟合的相对影响。  DfBeta(s):beta 值的差分是由于排除了某个特定个案而导致的回归系数的改变。 为模型中的每一项(包括常数项)均计算一个值。  Residuals:残差,保存残差。可用的选项有“未标准化”、“Logit”、“学生化”、“标 准化”和“偏差”。  Unstandardized:未标准化残差。观察值与模型预测值之间的差。

 Logit:残差,使用 Logit 刻度对个案进行预测时个案的残差。Logit 是一个商, 分子是残差,分母是预测概率乘以 1 与预测概率的差。

 Studentized:学生化的残差,排除了某个个案的情况下,模型离差的改变。  Standardize:标准化残差,残差除以其标准差的估计。标准化残差也称为 Pearson

残差,它的均值为 0,标准差为 1。  Deviance:偏差。基于模型偏差的残差。

 Export model information to XML file:将模型信息输出到 XML 文件,将参数估计值 及其(可选)协方差导出到指定的 XML(PMML)格式的文件。SmartScore 和 SPSS Statistics Server(独立的产品)可使用该模型文件将模型信息应用到其他数据文件以 达到评分目的。

在 Predicted Values 框中,选择 Probabilities 选项、Group membership 选项,即要求保存被 解释变量取 1 的预测概率值和分类预测值,然后单击 Continue 按钮返回图 5-6-4。 (8)执行程序。单击图 5-6-4 中的 OK 按钮,则在输出窗口中输出变量是否有效的 Logistic 回归分析结果。 【实验结果与分析】 结果 5-6-1 显示了 Logistic 回归分析初始阶段方程中只有常数项时的错判矩阵。可以看到, 315 人实际有效且模型预测正确,正确率为 100%;262 人实际无效但模型均预测错误,正确 率为 0%。模型总的预测正确率为 54.6%。

Classification Tablea,b

Predicted 是否有效 Observed 无效 有效 Percentage Correct 无效 0 262 .0 是否有效 有效 0 315 100.0 Step 0 Overall Percentage 54.6

a. Constant is included in the model. b. The cut value is .500

(39)

结果 5-6-2 显示了方程中只有常数项时回归系数方面的指标,各数据项的含义依次为回归 系数、回归系数标准误差、Wald 检验统计量的预测值、自由度、Wald 检验统计量的概率 p 值、 发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant .184 .084 4.855 1 .028 1.202 结果 5-6-2 结果 5-6-3 显示了待进入方程的各个变量的情况,各数据项的含义依次为 Score 检验统计 量的观测值、自由度和概率 p 值。可以看到,如果下一步药物进入方程,则 Score 检验统计量 的观测值为 66.307,概率 p 值为 0.000。如果显著性水平  为 0.05,由于药物的概率 p 值小于 显著性水平  ,所以是能进入方程的。

Variables not in the Equation

Score df Sig. drug 66.307 1 .000 Variables degree 48.872 1 .000 Step 0 Overall Statistics 107.340 2 .000 结果 5-6-3 结果 5-6-4 显示了 Logistic 回归分析第一步时回归方程显著性检验的总体情况,各数据项 的含义依次为似然比卡方的观测值、自由度和概率 p 值。

Omnibus Tests of Model Coefficients

Chi-square df Sig. Step 115.145 2 .000 Block 115.145 2 .000 Step 1 Model 115.145 2 .000 结果 5-6-4 结果 5-6-5 显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2 倍的对数似然 函数值、Cox & Snell 2

R 以及 NagelkerkeR 。-2 倍的对数似然函数值越小则模型的拟合优度2

越高。这里该值较大所以模型的拟合优度并不理想。

Model Summary Step -2 Log likelihood Cox & Snell R

Square

Nagelkerke R Square

1 679.872a .181 .242

a. Estimation terminated at iteration number 4 because parameter estimates changed by less than .001.

參考文獻

相關文件

年初至当期累计 数值 按年变动.

数值 按年变动 主要指标.. 年初至当期累计

年初至当期累计 数值 按年变动.

统计暨普查局过往主要采用基本价格计算及分析行业的生产总额、增加值总额以及产业结构,亦同时一并公布按生产者价

统计暨普查局过往主要采用基本价格计算及分析行业的生产总额、增加值总额以及产业结构,亦同时一并公布按生产者价

统计暨普查局过往主要采用基本价格计算及分析行业的生产总额、增加值总额以及产业结构,亦同时一并公布按生产者价

抽样框是源自统计暨普查局的经济单位档案;店铺样本是采用分层抽 样,按行业及在职员工数目抽选。对于在职员工为 20

1.每個人先用貝式刷牙法刷牙,用 BCP 試紙測量門牙酸鹼值2.嚼食一片營養口糧3.以 BCP 試紙測量門牙 pH 值4.以樹枝牙刷和泡水 5 分鐘的木賊刷上門牙 20