什么是计分制?
当测验开发者向最终用户(学校管理者、教师、家长、考生本人或其他潜在的分数使用者)报告测验分数时,重要的是所报告的数字分数的含义要清晰易懂。否则,测试分数还有什么意义?
考试成绩有很多种。
例如,有些测验的分数是以正确人数或正确百分比来报告的。当每个考生都参加完全相同的测验时,这种报告方式就很有用,比如线性固定形式测验。
Avant STAMP (基于标准的 能力 测评)评估则采用了更现代的心理测量和测试开发方法,而且不是 线性测试。所有STAMP 阅读和听力测试都是计算机自适应的,这意味着测试难度会根据每位应试者的估计语言能力进行实时调整。这样就能更准确地测量应试者的语言能力,并为应试者提供比线性测试更愉快的体验,因为应试者不会遇到大量大大低于或高于其实际语言能力水平的题目。只有通过一种叫做 "项目反应理论"(item-response-theory,IRT)的心理测量技术,才能实现这种强大的测试组装和部署方法。在 IRT 中,每一个测试项目(又称测试问题)都与自己经过科学测量的难度水平相关联。在STAMP 中,测试中每个项目的难度水平都是通过对数百名(在许多情况下是数千名)具有代表性的应试者的回答进行 IRT 分析计算出来的。这样,我们就可以校准项目的难度,并确保每次STAMP 测试都只使用最优秀的项目。
STAMP 的评分算法也会利用这些项目难度信息,根据应试者在测试中尝试的项目、对每个项目的反应,以及应试者为达到STAMP 各等级所需的能力(后者通过一个称为标准设定的过程来确定),计算出每个应试者的最终STAMP 等级。 因此,考虑到STAMP 评估的适应性,以及每个项目都有一定的统计难度,以正确率(如 30 分中的 23 分)或正确率(76.6%)来报告STAMP 分数既没有意义,也不恰当。
正如我们即将讨论的那样,构成Avant STAMP 测验开发和评分统计基础的项目反应理论(IRT)所使用的评分量表对于STAMP 测验的最终用户来说并不十分直观。例如,IRT 量表既有负值,也有正值。如果在分数报告上告诉受测者,他们在德语STAMP 4S 测试中的阅读能力是-1.4,这对受测者没有任何帮助,而且也违反了上文讨论的分数清晰易用的要求。因此,有必要将基于 IRT 的STAMP 分数值转换为更有意义、更易于解释的分数量表。量表基本上是一个潜在测量值的范围,测试开发人员必须在报告分数之前确定分数量表的参考点。
了解比例尺的参考点
读者可能熟悉的三种温标是摄氏温标、华氏温标和开尔文温标。虽然这三个都是温标,但它们的参照点和解释却大相径庭。用于报告语言能力分数的不同标度也是如此。
在摄氏度表中,0 ℃ 表示水在海平面上结冰的测量点,而摄氏度表中可能的最低测量值是 -273.15 ℃,即物质中没有任何分子活动的测量点。然而,在华氏度表上,海平面上水结冰的测量点是 32 华氏度,而不是0 华氏度。在华氏度表上,-459.67 华氏度表示物质中没有分子活动时的最小测量值。我们可以看到,无论是摄氏度还是华氏度,零实际上都不意味着完全没有任何东西。它只是一个参考点,只有在完整的刻度及其可能的、可达到的值中才有意义。
在温标中,唯一有真正零点的标度是开尔文标度。在开尔文标度中,0 K 测量点实际上意味着完全没有分子活动,0 标志着开尔文标度中可能存在的最小值。因此,在开尔文标度中,负值是不可能存在的,这一点与摄氏和华氏温度标度(以及我们即将看到的 IRT 温度标度)不同。 这三种温标的最大值都没有实际限制,因为没有已知的热度限制。
现在,我们真的能说一种比另一种更好吗?其实不然。这三种量表本身都是完全有效的,并且在不同的环境中被广泛使用,根据具体环境的不同,用户会认为某些量表更合适。不过,有一点将这三种刻度联系在一起,并使它们完全适用于精确测量,那就是刻度中任何两个测量点之间的距离都表示相同的温差。换句话说,35 ℃ 和 37 ℃ 之间的分子活度差与 89 ℃ 和 91 ℃ 之间的分子活度差完全相同。Avant 认为,这是良好测量的核心特征,当然也是我们STAMP 分数的核心特征。
尽管我们可以通过观察上述三个熟悉的温度量表,来了解它们在特定情况下是如何适合于测量诸如温度这样的构念的,但重要的是要明白,它们所具有的一些特征使它们不适合于测量诸如语言熟练程度这样的构念。例如,人们几乎不可能解释什么是负语言能力,也不可能解释一个人的语言能力怎么可能为零;即使是一个以前从未学习过或接触过某种语言的人,至少也会对该语言的借词有一些(尽管是最低限度的)了解。任何语言能力测试都不能声称某人的语言能力为零,因为特定的测试不可能评估一个人在所有可能的情况下对语言中的某个词或短语表现出一些理解,哪怕是非常基本的理解。所有的语言测试都受到测试项目及其所能测量的范围的限制,这就意味着语言测 试可能没有测量的零点,但可能有测量的最低点,即低于这个点,测试就不能提出任 何要求。这同样适用于测试的最高参考点;无论测试包含多少项目,它都不可能测出一个人的全部语言能力。因此,有效的语言水平测试量表(如STAMP 测试)将有一个最低参考点(用于答错所有测试项目的应试者),没有零参考点,并有一个最高参考点(用于答对所有测试项目的应试者)。
IRT 测量和STAMP 分数
As noted above, it is important that equal intervals in a scale used for reporting scores on a language proficiency test indicate the same difference in language proficiency. All levels from the STAMP test (levels 1 – 9) are aligned to US language proficiency standard levels (Novice Low through Advanced High), as can be seen below:

Despite the alignment of the STAMP levels to these proficiency levels and despite the usefulness of the proficiency levels for indicating a test taker’s general level of ability in the language, the standards levels themselves do not conform to the type of numerical scaled scores we are looking for. Firstly, the meaning of the interval difference in the national proficiency standards (and therefore STAMP) levels is not the same regardless of the point on the scale. For example, it takes a higher amount of language ability to move from Intermediate High (STAMP level 6) to Advanced Low (STAMP level 7) than it does to move from Novice High (STAMP level 3) to Intermediate Low (STAMP level 4). For this very reason, the proficiency levels are depicted as an inverted pyramid, and not as a square or rectangle. Secondly, despite the usefulness of the proficiency levels for indicating where a certain language learner stands in terms of their language proficiency, students scoring at the same STAMP level may actually have slightly different abilities in the language and may have answered different numbers of items correctly in the STAMP test, even if they happened to have seen exactly the same items through the STAMP adaptive algorithm. Therefore, despite the important usefulness of the STAMP and national proficiency standards levels in understanding test-takers’ language proficiency, these levels are not as fine-grained as some end-users of our test scores would like them to be.
For instance, a school may only have ten seats in a special honors section of French Reading. What if fourteen of the students have reached a STAMP level 9 in Reading? How can the school pick 10 out of the 14 students for the honors class? Randomly picking ten may be deemed an acceptable solution but we at Avant Assessment can provide a better and more accurate way of helping in this case. As mentioned above, Avant Assessment makes use of a statistical measurement technique called Item Response Theory to calibrate all of the items in the Reading and Listening sections of the (adaptive) STAMP tests, to align the number of questions a test-taker gets right in their specific test path to the STAMP levels and therefore national proficiency standards levels they are aligned to, and to finally, produce scaled scores that provide score-users with a more fine-grained measure of the language ability of each test taker than would be possible if only the STAMP levels were to be reported.
缩放STAMP 分数
一旦通过 IRT 对STAMP 测试特定部分的所有项目进行了校准,我们就可以根据每个学生在STAMP 测试阅读和听力部分的特定路径中的正确或错误项目,为他们分配一个 IRT 能力估计值(在 IRT 术语中也称为Theta )。有了这个值之后,我们就可以对这个值进行缩放 (因此称为分数缩放),这样我们就可以报告更精细的分数,以补充报告所达到的STAMP 水平。通过对 IRT 分数进行缩放,我们就能确保所有缩放分数都是正值(没有负值),这样分数使用者(如上文假定的法国学校)就能更深入地了解学生的能力,即使学生的分数恰好都在同一STAMP 水平。
STAMP 测试中的阅读和听力部分必须分别计分。因此,西班牙语阅读的比例分数不能直接与西班牙语听力的比例分数或中文阅读的比例分数进行比较。换句话说,STAMP 比例分数是针对具体语言和部分的。
我们通过简单的线性变换对每项测试的阅读或听力部分的 IRT 分数进行缩放,如下式所示:

上述比例尺确保了STAMP 测试中特定部分的所有可能的标度分数都是不带小数点的正数,这比分数范围在 - 4 到 + 4 之间要直观得多,后者在 IRT 中更为典型。上式中的线性标度也确保了任何两个标度分数之间的距离都表明在标度的任何一点上存在相同的能力差异。
比例分数的解释
假设有以下学生参加了日语STAMP 4S 考试的听力部分:
- 学生 A比例分数:589
- 学生 B的比例分数:612
- 学生 C的比例分数:677
- 学生 D的比例分数:700
学生 A和 学生 B的日语听力水平差异(23 分)与学生C和 学生 D的日语听力水平差异(23 分)相同。如果两名学生的日语听力达到了相同的STAMP 水平(如 STAMP 4 级--中低级),但其中一名学生的标度分比另一名学生高出 20 分,那么我们就有充分的理由相信,标度分高的学生比标度分低的学生更熟练。他们的标度分之间的差距越大,我们就越有信心认为这种差距是有意义的,这两个学生的能力确实不相上下。如果一个学生经过一年的学习似乎没有进步,"停留 "在同一水平上,那么标度分数也是有用的。将他们一年前的标度分数与本次考试的标度分数进行比较,可能会发现他们的能力略有提高,即使这种提高不足以使他们进入下一个STAMP 等级。
但有一点必须牢记: 所有评估的分数都有一定的测量误差。例如,ETS 报告的托福 iBT 听力部分的标准测量误差(SEM)为 2.38 分(Educational Testing Services, 2018),其分数范围为 0 - 30 分。而 SAT 部分的分数范围为 200 - 800,测量的标准误差为 30 分(College Board,2018)。由于不可能在许多不同的日子里对每个学生进行评估,也不可能对数百个考试项目进行评估,因此每次考试成绩都是特定考生在参加考试的特定日子里所能维持的水平的缩影,也是他们在考试过程中所回答的特定项目的缩影。当然,像STAMP 4S 这样的测试,其阅读和听力部分是计算机自适应的,其中包括大量针对每个应试者实时估计水平的项目,并且是按照严格的定性和定量标准开发的,因此其测量误差往往较小,比不遵循同样严格标准的短小、非自适应、线性测试更加有效和高效(Schultz, Whitney, & Zickar, 2014)。STAMP 测试中阅读和听力部分的平均测量标准误差为 10 分。我们在Avant 上使用的 IRT 软件很容易得出这一统计结果。
鉴于我们测验的心理测量严谨性和适应性,与STAMP 比例分数相关的测量误差非常小。尽管我们建议主要根据STAMP 所达到的水平来进行测验分数分析,但我们在Avant 建议,在非常特殊的情况下,如要根据STAMP 的测验分数做出更高风险的决定时,可以考虑使用比例分数,例如,当STAMP 分数被用于授予国家双语印章(SSB)或通过考试授予学分(CBE)时。在这种较高风险的情况下,如果应试者的阅读或听力的标度分数恰好与使其有资格获得 SSB 或 CBE 的最低标度分数相差 10 分或更少,那么Avant的立场是,学校或学区可以自行决定让这些应试者重新参加STAMP 考试(鉴于其适应性,应试者很有可能不会看到与上一次考试完全相同的项目)。如果在第二次考试中,应试者的等级分达到STAMP ,并符合 SSB 或 CBE 的要求,Avant,则可以用第二次考试的分数代替第一次考试的分数。
上面讨论的两种情况属于高风险情况,在这种情况下,可能需要考虑测试的微小误差 (请记住,所有 测试都 有误差范围)。
我们建议,一般来说,将STAMP 比例分数用于传统用途是合适的,例如用于持续的年度分析或学生的成长以及项目评估。
要查看STAMP 评估目前提供的比例分数表,请单击此处。
参考资料
美国大学理事会(2018 年)。SAT:了解分数。取自https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
美国教育考试服务中心(2018 年)。托福 iBT 成绩的可靠性和可比性。TOEFL Research Insight Series (vol. 3). 取自www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014).测量理论在行动。案例研究与练习》(第 2 版)。伦敦/纽约:Routledge.College Board (2018).SAT:Understanding Scores.取自https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
美国教育考试服务中心(2018 年)。托福 iBT 成绩的可靠性和可比性。TOEFL Research Insight Series (vol. 3).取自www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014).测量理论在行动。案例研究与练习》(第 2 版)。伦敦/纽约:Routledge.