计算机辅助教育测量与评价 - 万水书苑-出版资源网

全文

(1)第 4 章测验分数等值及其常模量表的建立. 4.1. 测验分数等值及其常模. 4.1.1 测验等值的含义测验等值是指对测量同一心理特质的不同测验的分数或试题参数，通过一定的数学方法，转换成同一单位系统中的量数，以利于相互比较的方法。测验等值包括分数等值和项目参数等值两类。根据实测资料，求出两测验间考生实得分数的等值转换关系，叫做分数等值。一位学生期中语文考试成绩 70 分与期末语文考试成绩 70 分并不相等，因为两次考试的参照点和单位不同，这就需要进行分数等值转换。而项目等值是指在建立题库时，各试题的难度和区分度等参数的单位系统不一样，需要从实测资料出发，求出这些单位系统的转换关系。两个等值测验之间进行转换时，必须有相互沟通的桥梁存在，即共同的试题组或共同的考生组。当测验 A 和测验 B 同时向同一组考生施测，称为共同考生设计方法。当在测验 A 和 B 中都加进一批共同的试题，构成两个新测验 A 和 B ，然后将 A 和 B 分别向不同考生组施测，这叫做共同试题设计方法。只有利用上述方法得到的实测资料，才能求出两个等值测验间的单位系统转换关系。测验等值转换一般以两种形式出现：（1）水平等值。若两个测验的难度水平相当，考生能力分布类似时，它是同一测验的不同形式，称为测验的水平等值。如高考时的正卷与副卷，其副卷是为正卷在某种意外不能使用的情况下备用的，它们两者的等值是水平等值。（2）垂直等值。当测验程度水平不同，考生的能力分布也不同时，这一类等值称为垂直等值。 4.1.2 测验分数等值的方法 1．线性等值两个平行且信度相等的测验分数 X 和 Y，假若它们各自导出的标准分数相等，就可以认为是等值分数，因此，有 Y  MY X  M X  （4-1） SY SX 式中，X 和 Y 是两测验的原始分数； M Y 、 M X 和 SY 、 S X 分别是两个测验上的原始分数的平均数与标准差。整理公式（4-1）得： Y. SY S X  MY  Y M X SX SX. （4-2）.

(2) ▌▎计算机辅助教育测量与评价 ▎▌. 令 b. SY S ， a  M Y  Y ，则有 SX SX. （4-3） Y  bX  a 即，两个测验分数的等值关系建立。 2．百分位等值两个平行且信度相等的测验分数 X 和 Y，如果它们在各自考生组中的百分位数级相等，就可以认为是等值。随机地划分两组考生 A 和 B，分别计算它们的累积频率、相对累积频率，则在 A 和 B 两个组中同一百分位等级所对应的原始分数，就是等值分数。 3．铆等值实际工作中，常采用设置一批共同试题的方法，求取两个测验间的等值转换关系，两个测验所共用的部分试题称为铆题。铆题的数量应为全卷的 1/5，铆题在试卷中可以分散、也可以集中，或者作为一个独立的测验来施测。包括铆题的两个测验可以先后测试同一批考生，也可以把这批考生随机地分成 a、b 两部分，然后，同时分别考试。分数的等值方程如公式（4-2）： S S Y  Y X  MY  Y M X SX SX 其中， M X  M Xa . S Xa rXa ,ua ( M ut  M ua ) Sua. （4-4）. M Y  M Yb . SYb rYb ,ub ( M ut  M ub ) Sub. （4-5）. 2 S X2  S Xa . 2 SY2  SYb . 2 S Xa. 2 r 2 ( Sut2  Sua ) 2 Xa ,ua Sua 2 SYb 2 r 2 (Sut2  Sub ) 2 Yb ,ub Sub. （4-6）（4-7）. 式中符号意义为：X 和 Y 为两组测验，a 和 b 是两半考生， t  a  b 代表全体考生， u 为共同测验。公式（4-4）中 M Xa 和 S Xa 是测验 X 在考生组 a 上所得分数的平均数和标准差， Sua 为共用测验在 a 考生组上的标准差， rXa ,ua 是对 a 考生组来说，在 X 测验和共同测验 u 上所得分数的相关系数； M ut 为共同测验 u 在全部考生上所得分数的平均数； M ua 为测验 u 在考生组 a 上所得分数的平均数。公式（4-5）、公式（4-6）及公式（4-7）符号的意义可类推。 4.1.3 常模 1．常模的定义在教育测量中测验的常模，简称常模。它是指一个有代表性的样组在某种测验上的表现情况，或者说，是一个与被试同类的团体在相同测验上得分的分布状况与结构模式。测验往往有明确的受测对象范围，因此，测验的常模总是针对某种人群的常模。常模是解释测验分数的参照系，它可以通过比较看出学生在不同学科领域中的表现，也可以看出一个学生的能力与成就发展在其团体中的相对位置状况，还能够了解学生在不同时 - 88 -.

(3) ▌▎第 4 章测验分数等值及其常模量表的建立 ▎▌. 期的发展变化情况。这无论是对学生本人，还是对教育者来说都具有重要的意义。 2．常模资料的获取首先通过抽样获取一个有代表性的常模团体。为了使其有较好的代表性，常模团体的容量总是数以百计，多则成千上万。其次，进行统计学描述。常模团体在一个测验上的一般表现情况或成绩分布状况，需要用统计学方法加以整理和描述。除了用常模团体平均分数对其一般表现进行衡量以外，人们还可利用测验常模团体的测试数据，建立更精细的解释测验分数的常模框架，如百分等级量表和标准分数量表。最后将原始分数转换为导出分数。所谓导出分数就是以常模团体的原始分数为基础，用统计学方法，导出一种新的具有特定意义的能反映个体发展在其团体中相对位置状况的分数量表或符号系统。为了得到参照常模解释测验分数的更一般的框架，原始分数可以转换为导出分数。例如，我们经常使用的学生体育达标测验量表就是一种简单直观的导出分数。. 4.2. 百分等级常模的建立. 4.2.1 百分等级常模的意义百分等级是一个地位量数，能够反映某个测验分数在一组数据中的相对地位。在学生测验中，它把学生的原始分数放在该学生所在群体（比如，四年级）的成绩中进行比较，以确定该学生在群体中的相对地位之高低。例如，某学生在学期末考试中英语卷面成绩是 70 分，知道该学生所在群体（或年级）中有 60%的学生成绩低于 70 分，则该学生的百分等级为 60。与百分等级相对应的原始分数称为该百分等级的百分位数。如上例，第 60 百分位数为 70 分。百分等级常模就是基于某个常模团体，为某种测验的原始分数与百分等级之间建立起一种对应关系的组内常模类型（或量表）。例如，某年级数学测验最高分为 94 分，其百分等级为 100；最低分为 38 分，其百分等级为 0。在 94 分与 38 分之间分成 100 个等级，如果一名学生测验分数为 52 分，他处于第 15 个百分等级，就可以表明有 15%的学生测验分数比他差，而有 85%的学生测验分数比他好。 4.2.2 百分等级常模的建立方法 1．用原始分数直接计算其百分等级例如，现以高二 50 名学生的数学测验分数为例，如表 4.1 所示，说明计算各原始分数百分等级的步骤和方法。表 4.1 高二 50 名学生数学测验分数 85. 70. 67. 50. 87. 70. 68. 52. 53. 67. 72. 86. 89. 71. 42. 74. 60. 45. 83. 73. 62. 48. 82. 64. 72. 82. 79. 74. 61. 71. 81. 84. 96. 75. 65. 55. 57. 66. 77. 91. 76. 68. 58. 60. 69. 78. 94. 79. 67. 57. （1）将表 4.1 中学生的所有可能获得的分数从大到小排列，其中最大的分数要比实际获 - 89 -.

(4) ▌▎计算机辅助教育测量与评价 ▎▌. 得的最大分数大 1，最小的分数要比实际获得的最小分数小 1，中间的分数依次一个比一个小，为了使分数连续起来，即使没有学生获得的分数也应列上。见表 4.2 第 1 列。（2）计算各原始分数的频数。见表 4.2 第 2 列。（3）从下至上计算各分数的累积频数。见表 4.2 第 3 列。（4）计算各分数中点的累积频数。某个分数中点的累积频数，就等于该分数频数的一半加上小于该分数的频数总和。如表 4.2 中，58 分的频数为 1，其一半为 0.5，57 分的累积频数为 9，则 58 分中点的累积频数为 0.5+9=9.5。见表 4.2 第 4 列。（5）计算各分数中点的百分等级。将各分数中点的累积频数除以总频数再乘以 100，即 9.5 为各分数中点的百分等级。如 58 分中点的百分等级为  100  19 。见表 4.2 第 5 列。 50 表 4.2 的第 1 列和第 5 列就构成高二数学测验的百分等级量表。表 4.2 高二数学测验分数百分等级计算表原始分数. 频数. 累积频数. 至中点的累积频数. 百分等级 PR. 1. 2. 3. 4. 5. 97. 0. 50. 50. 100. 96. 1. 50. 49.5. 99. 95. 0. 49. 49.0. 98. 94. 1. 49. 48.5. 97. 93. 0. 48. 48.0. 96. 92. 0. 48. 48.0. 96. 91. 1. 48. 47.5. 95. 90. 0. 47. 47.0. 94. 89. 1. 47. 46.5. 93. 88. 0. 46. 46.0. 92. 87. 1. 46. 45.5. 91. 86. 1. 45. 44.5. 89. 85. 1. 44. 43.5. 87. 84. 1. 43. 42.5. 85. 83. 1. 42. 41.5. 83. 82. 2. 41. 40.0. 80. 81. 1. 39. 38.5. 77. 80. 0. 38. 38.0. 76. 79. 2. 38. 37.0. 74.  .  .  .  .  . 59. 0. 10. 10.0. 20. 58. 1. 10. 9.5. 19. - 90 -.

(5) ▌▎第 4 章测验分数等值及其常模量表的建立 ▎▌ 续表原始分数. 频数. 累积频数. 至中点的累积频数. 百分等级 PR. 1. 2. 3. 4. 5. 57. 2. 9. 8.0. 16. 56. 0. 7. 7.0. 14. 55. 1. 7. 6.5. 13. 54. 0. 6. 6.0. 12. 53. 1. 6. 5.5. 11. 52. 1. 5. 4.5. 9. 51. 0. 4. 4.0. 8. 50. 1. 4. 3.5. 7. 49. 0. 3. 3.0. 6. 48. 1. 3. 2.5. 5. 47. 0. 2. 2.0. 4. 46. 0. 2. 2.0. 4. 45. 1. 2. 1.5. 3. 44. 0. 1. 1.0. 2. 43. 0. 1. 1.0. 2. 42. 1. 1. 0.5. 1. 41. 0. 0. 0.0. 0. 2．用频数分布表编制百分等级量表用频数分布表编制百分等级量表的方法分为编制频数分布表和建立百分等级与原始分数的等值对照表两大步骤。步骤一：编制频数分布表。仍以表 4.1 高二学生数学测验分数为例，说明频数分布表的编制方法。（1）求全距。从原始分数中找出最大值和最小值，并求其差，即为全距。本例中最大值为 96，最小值为 42，全距为 96-42=54。（2）决定组数和组距。各组的组距等于全距除以组数。而组数可根据总频数的多少而定，一般在 10～20 之间。根据数据特点，本例拟分为 12 组，则各组的组距为 54/12=4.5，为了计算方便，组距取整数 5。（3）决定组限。每组的最小值为下限，最大值为上限。为了保持全距的连续性，各组可只写出下限，而不写出上限，因为各组的上限就是其相邻数值较大一组的下限。为了使百分等级量表的意义比较容易理解，将由小到大的各组数值从下往上排列。（4）列出各组组中值。各组组中值等于上限与下限的平均数，如第一组的组中值为 (95+100)/2=97.5。（5）记录频数。将原始分数依次记在各组之中，对于既是数值较小一组的上限又是数值较大一组的下限的数据，记录时，应记入数值较大一组。例如，70 这个数据，既是 65～70 这 - 91 -.

(6) ▌▎计算机辅助教育测量与评价 ▎▌. 组的上限，又是 70～75 这组的下限，记录时，应记入 70～75 这组。（6）计算各组至上限的累积频数。某组至上限的累积频数等于本组的频数加上小于本组下限的各组频数之和。步骤二：建立百分等级与原始分数的等值对照表。通过频数分布计算百分等级与原始分数等值对照表的方法有三种，分别为：计算各组组中值百分等级、计算几个特定的百分位数和计算测验分始分数 X 所对应原百分等级 PR。（1）计算各组组中值百分等级。确定某个原始分数在标准化样本中所处的地位，不必十分精确，因为同一个分数在不同的样本中的百分等级也不完全相同。因此，我们可以用各组组中值所对应的百分等级来代表该组各个分数的百分等级。计算各组组中值百分等级的方法如下： 1）计算各组组中值的累积频数。某组组中值的累积频数等于本组频数的一半加上小于本组下限的各组频数之和。也可以说，本组频数的 1/2，加上数值较小相邻一组的累积频数。 2）计算各组组中值的累积比率。各组组中值的累积频数除以总频数，即为各组组中值的累积比率。 3）计算各组组中值的百分等级。将各组组中值的累积比率乘以 100，即为组中值的百分等级，如表 4.3 第 7 列所示。表 4.3 高二数学测验分数百分等级计算表至上限的累积频数. 至组中值的累积频数. 至组中值的累积比率. 组中值的百分等级. 4. 5. 6. 7. 1. 50. 49.5. 0.99. 99. 92.5. 2. 49. 48.0. 0.96. 96. 85～. 87.5. 4. 47. 45.0. 0.90. 90. 80～. 82.5. 5. 43. 40.5. 0.81. 81. 75～. 77.5. 6. 38. 35.0. 0.70. 70. 70～. 72.5. 9. 32. 27.5. 0.55. 55. 65～. 67.5. 8. 23. 19.0. 0.38. 38. 60～. 62.5. 5. 15. 12.5. 0.25. 25. 55～. 57.5. 4. 10. 8.0. 0.16. 16. 50～. 52.5. 3. 6. 4.5. 0.09. 9. 45～. 47.5. 2. 3. 2.0. 0.04. 4. 40～. 42.5. 1. 1. 0.5. 0.01. 1. 原始分数. 组中值. 频数. 1. 2. 3. 95～. 97.5. 90～. . 50. （2）计算几个特定的百分位数。在频数分布表列好之后，可以用插值法求几个特定百分等级相对应的百分位数，一般是求第 5，10，20，30，40，50，60，70，80，90，95 共 11 个. - 92 -.

(7) ▌▎第 4 章测验分数等值及其常模量表的建立 ▎▌. 百分位数，以构成百分等级与原始分数的等值对照表，即百分等级量表。百分位数的计算公式为：  p  i Pp  L p   n  n1  100   fp. （4-8）. 式中， Pp 表示某一个百分位数； L p 表示该百分位数所在组的下限； p 表示该百分位数的百分等级数； n 表示总频数； n1 表示小于该百分位数所在组下限的频数总和；i 表示组距； f p 表示该百分位数所在组的频数。例如，表 4.3 中第 5 百分位数为.  p  i P5  L p   n  n1  100   fp  5  5  45    50  1   100  2. = 48.75 ≈49 其他几个特定的百分位数的计算方法以此类推，计算后取整数可得表 4.4，即高二数学测验百分等级量表。表 4.4 高二数学测验百分等级量表百分等级. 95. 90. 80. 70. 60. 50. 40. 30. 20. 10. 5. 百分位数. 91. 88. 82. 78. 74. 71. 68. 65. 60. 53. 49. （3）计算测验分始分数 X 所对应原百分等级 PR，其公式如下： PR . f ( X  Lb )  100  Fb    n  i . （4-9）. 式中，PR 表示百分等级； n 为常模团体的人数；X 为测验原始分数； Lb 为 X 所在组别的组下限； Fb 为小于 Lb 的各组频数之和； f 为 X 所在组的频数； i 为组距。例如，表 4.3 中，要确定原始分数 58 分所对应的百分等级 PR，由公式（4-9），可得到： PR . f ( X  Lb )  100  Fb    n  i . . 100  4(58  55)  6   50  5 .  16.8 即说明测验分数 58 分所对应的百分等级为 16.8；或者说在此频数分布中，有 16.8%的数据低于 58 分。其他原始分数的解释依次类推，将变换结果用一张表或一个图形加以表达，即为测验的百分等级量表。. - 93 -.

(8) ▌▎计算机辅助教育测量与评价 ▎▌. 4.3. 标准分数常模的建立. 4.3.1 标准分数的定义标准分数是以标准差为单位表示测验成绩与平均分数之间的距离。不同的测验分数只有当它们的总体平均数、标准差、分布形态相同或者极其相近，才可以相互比较。但是，所测量的属性，其总体平均数、标准差和分布形态往往是未知的，既然我们无从确切地了解所测量的属性在总体中的情况如何，为了使不同的测验分数可以相互比较，只好假定所测量的一切属性，其总体平均数、标准差和分布形态都是一致的。若几种测验分数的样本分布形态是相近的，只需将几种测验分数转换成平均数相同和标准差相同的线性标准分数；若样本分布形态不一样，还需将测验分数转换成非线性的标准分数，即正态化的标准分数。所谓线性标准分数就是原始分数转换成标准分数之后，只改变了分布的平均数和标准差，并不改变分布的形态。而非线性标准分就是正态化的标准分，也就是原始分数与正态化标准分数的等值对照表，其量表值就是正态化的标准分数或非线性的标准分数。 1．标准分数 Z Z 分数本身就是关于原始分数 X 的一种线性变换，因此，Z 分数不改变原始分数的分布形态。任何一批原始分数，转化成 Z 分数后，这批 Z 分数的平均值为 0，标准差为 1。在一般情况下，标准分数 Z 的取值范围在3 到+3 之间。其计算公式如下： Z. XX S. （4-10）. 式中 X 和 S 分别表示测验的平均分数和标准差。 Z 标准分数的单位是等距的，如果几个不同测验分数的分布形态很相近时，同一个被试在几个不同测验上的 Z 分数可以相互比较，或者可以比较不同被试几个测验分数。例如，对高一学生进行学习质量检测，语文、数学和英语成绩的平均数分别是 80 分、70 分和 85 分，这三种成绩的标准差分别是 10 分、15 分和 12 分。某学生的三科成绩分别是 85 分、82 分和 90 分，问该生这三科成绩哪一科最好？根据公式（4-10）可得到： 85  80 Z 语文   0.5 10 82  70 Z 数学   0.8 15 90  85 Z 英语   0.42 12 可见，Z 数学 > Z 语文 > Z 英语，故可认为该生的数学成绩相对最好，其次为语文，再次为英语。由于标准分数 Z 分值过小，并往往带有小数和负值等缺陷，在许多情形下，直接使用不大合乎人们表示分数的习惯，故通常把标准分数 Z 通过线性变换，转到更大的标准分数量表 - 94 -.

(9) ▌▎第 4 章测验分数等值及其常模量表的建立 ▎▌. 上，其一般公式为：（4-11） T  a  bZ 在这里，a 和 b 为选定的两个常数，Z 为标准分数，T 为线性变换分数。常见的转换分数有以下几种：（1）教育与心理测验中的 T 分数：T=50+10Z。（2）韦氏智力量表中各分测验的量表分：T=10+3Z。韦氏智力量表智商（离差智商）：IQ=100+15Z。（3）美国大学入学考试报告分数：CEEB=500+100Z。（4）为出国人员举行的英语水平考试：EPT=90+20Z。（5）美国教育测验中心举办“托福”考试：TOEFL=500+70Z。 2．正态分布下标准分数 Z 和百分等级 PR 之间的关系标准分数 Z 是与百分等级 PR 相联系的一种相对分数，在正态分布下，其对应的百分等级 PR 与一个以标准分 Z 为界点的正态曲线左尾部面积比例数相对应。这种对应关系由统计学家编制出正态分布表供人们查表确定。通过查正态分布表，只要简单计算就可以确定某个 Z 分数所对应的百分等级 PR。 3．正态分布下若干种分数量表之间的关系（1）标准分数及其与百分等级和标准分数之间的关系。标准九分是基于百分等级形成的另一种较常用的评分量表，该评分量表是 9 点评分形式，取值为 1 至 9 的整数。在正态分布下，标准九分量表与标准分数 Z 及百分等级 PR 之间的关系如表 4.5 所示。表 4.5 标准九分与其他评分量表对应关系标准九分. Z 分数范围. 百分等级范围. 标准九分个案百分比（%）. 9. +1.75 以上. 96～100. 4. 8. +1.25 至+1.75. 89～95. 7. 7. +0.75 至+1.25. 77～88. 12. 6. +0.25 至 0.75. 60～76. 17. 5. -0.25 至+0.25. 41～59. 20. 4. -0.75 至-0.25. 24～40. 17. 3. -1.25 至-0.75. 12～23. 12. 2. -1.75 至-1.25. 5～11. 7. 1. -1.75 以下. 1～4. 4. （2）其他多等级评分量表及其对应关系。除了上述标准九分量表外，还有标准十分、标准十五分和标准二十分量表等，它们在本质上都是基于百分等级的多等级评分量表。例如，卡特尔 16PF 测验就是采用标准十分量表常模。根据正态分布的特点，当我们把上述介绍的标准分数评分量表、T 分数评分量表、韦氏智 - 95 -.

(10) ▌▎计算机辅助教育测量与评价 ▎▌. 力量表、标准九分评分量表、CEEB 评分量表以及百分等级评分量表综合在一起加以比较，即可形成如图 4.1 所示的对应关系。. 图 4.1 几种标准分数的对应关系. 4.3.2 标准分数常模的建立方法标准分数常模的建立方法可分为两个步骤：（1）根据标准化样本中每个被试测验的原始分数，计算其平均分数及标准差。（2）根据公式（4-10）计算原始分数的 Z 分数。例如，表 4.6 是 40 名初三学生语文测验分数，通过标准分数转换，可得如表 4.7 所示的 Z 分数和 CEEB 分数量表。表 4.6 40 名初三学生语文测验分数 79. 76 59 66 73 67 64 74 82 62 78 80 75 63 77 56 72 65 70 58. 68 61 78 74 63 66 80 62 64 72 65 68 72 67 64 63 64 66 75 68. - 96 -.

(11) ▌▎第 4 章测验分数等值及其常模量表的建立 ▎▌ 表 4.7 初三语文测验标准分数量表学生. 原始分数. Z 分数. CEEB 分数. 学生. 原始分数. Z 分数. CEEB 分数. 1. 82. 1.96. 696. 15. 68. -0.13. 487. 2. 81. 1.81. 681. 16. 67. -0.28. 472. 3. 80. 1.66. 666. 17. 66. -0.43. 457. 4. 79. 1.51. 651. 18. 65. -0.58. 442. 5. 78. 1.36. 636. 19. 64. -0.73. 427. 6. 77. 1.21. 621. 20. 63. -0.88. 412. 7. 76. 1.06. 606. 21. 62. -1.03. 397. 8. 75. 0.91. 591. 22. 61. -1.18. 382. 9. 74. 0.76. 576. 23. 60. -1.33. 367. 10. 73. 0.61. 561. 24. 59. -1.48. 352. 11. 72. 0.46. 546. 25. 58. -1.63. 337. 12. 71. 0.31. 531. 26. 57. -1.78. 322. 13. 70. 0.16. 516. 27. 56. -1.93. 307. 14. 69. 0.01. 501. X  68.9. S  6.67. 习题四 1．什么是常模？教育测验常模的建立有什么意义？ 2．计算测验分数等值的方法有哪几种？ 3．试建立某门课程测验分数的百分等级常模。. - 97 -.

(12)