개요
Accurate and reliable scores are essential in language proficiency testing. The Lecture and Écoute sections of STAMP are multiple-choice, which allows for automatic scoring. The Écriture and Parlerallow open-ended responses, which involves human raters.
자동 채점
Human Rated*
*This research used only human-scored responses, preceding Avant’s automated grading system.
따라서 Avant 은 평가자의 정확도를 최대한 높이기 위해 최선을 다하고 있습니다.
For this reason, Avant is committed to making sure our rating accuracy and agreement between different raters are as high as possible.
A recent analysis of over 23,000 responses for Écriture and Parler ratings for five STAMP 4S languages (Arabic, Spanish, French, Simplified Chinese, and Russian) and three STAMP WS languages (Amharic, Haitian Creole, and Vietnamese) found that Avant’s raters demonstrated high scoring accuracy and inter-rater agreement , making the scores awarded in the Writing and Speaking sections of STAMP accurate and reliable for their intended purposes.
쓰기 및 말하기 능력 채점 방법
The study examined the Écriture and Parler sections of STAMP, scored by trained raters using STAMP levels from 0 (No Proficiency) to 8 (Advanced-Mid).
Examinees respond to three real-world prompts, showcasing their skills. Certified raters independently score each response, backed by rigorous training and ongoing monitoring to ensure accuracy and consistency.
For 80% of responses, a single rater’s score is official. For the remaining 20%, at least two raters score the response, with a manager resolving disagreements. Raters work independently, ensuring unbiased results. The final Écriture or Parler scores seen in our reports reflects the highest level consistently demonstrated across at least two of the three prompts.
아래 차트는 이 과정을 설명합니다:
As shown in Figure 1, an examinee’s official STAMP level is determined by the highest level they can consistently demonstrate in at least two out of three responses. For example, if an examinee receives Novice-Mid for their first response, Débutant-Élevé for their second, and Débutant-Élevé for their third, their final STAMP level is STAMP 3 (Novice-High). Alternatively, if they receive Intermédiaire-Faible for the first response, Débutant-Élevé for the second, and Intermédiaire-Moyen for the third, their final level is Intermédiaire-Faible, as it is the highest level they sustained twice (in the first and third responses).
STAMP의 쓰기와 말하기 섹션에서 세 가지 독립적인 프롬프트를 사용하면 두 가지 주요 이점이 있습니다:
- 더 넓은 주제 범위: 다양한 주제에 걸쳐 수험생을 평가하면 수여된 숙련도 수준이 다른 실제 상황에도 일반화될 가능성이 높아집니다.
- 평가자 편향성 최소화: 채점 방법과 함께 여러 개의 프롬프트를 사용하면 개별 평가자의 잠재적인 평가 편향성을 줄일 수 있습니다.
다음으로 신뢰성과 정확성의 정의에 대해 설명하겠습니다.
신뢰성 대 정확성
신뢰성
신뢰도는 측정의 일관성을 의미합니다(Bachman & Palmer, 1996). 간단히 말해, 수험자의 실력이 변하지 않았다는 가정 하에 다른 시기에 다시 시험을 치르거나 다른 버전의 시험을 치를 경우 시험 점수가 동일하게 유지될 것이라고 얼마나 신뢰할 수 있는지를 의미합니다.
For example, if an examinee scores Intermédiaire-Faible today and Intermédiaire-Élevé tomorrow, without any change in their knowledge or mental state, it suggests the test may not be highly reliable. Similarly, if an examinee scores Avancé-Bas on one version of a test and Intermédiaire-Moyen on another, it indicates a lack of consistency, pointing to an issue with the test’s reliability.
One factor contributing to a test’s reliability is how it is scored. In the STAMP test, the Lecture and Écoute sections are made up of multiple-choice questions that are scored automatically by a computer. This ensures that if an examinee provides the same answers on different occasions, they will always receive the same score.
However, the Écriture and Parler sections involve scoring by human raters. This means that scores can vary depending on who rates the response. However, with well-trained raters, we expect score variations to be minimal, reducing the impact of leniency, strictness, or potential bias.
정확성
수험생은 자신의 점수가 측정 대상 언어 영역의 숙련도(STAMP에서는 각 언어 영역의 숙련도)만 반영될 것으로 기대합니다.
Accuracy refers to how well the awarded score represents an examinee’s true ability. For example, if an examinee submits a Speaking response at the Intermédiaire-Élevé level but receives an Intermédiaire-Faible score from two raters, the score is inaccurate. Even if two other raters assign Intermédiaire-Faible two months later, the score remains inaccurate, although it is reliable (since it is consistent across raters and over time).
평가자 점수 신뢰도 및 정확도 평가하기
STAMP의 경우처럼 사람이 채점하는 경우, 채점자의 특성이 아닌 응답 자체의 품질을 반영하여 점수를 매기는 것이 중요합니다. 즉, 점수는 평가자의 관대함, 엄격함 또는 편견이 아니라 오로지 응시자의 입증된 숙련도에 따라 달라져야 합니다.
언어 시험 제공업체는 종종 통계를 사용하여 채점자에 따라 점수가 얼마나 달라질 수 있는지 보여줍니다. 일반적으로 여기에는 동일한 응답에 대한 두 명의 개별 채점자의 평점을 비교하는 것이 포함됩니다. 채점자는 가능한 한 자주 일치하는 것이 이상적이며, 이는 신뢰할 수 있는 채점 프로세스를 의미합니다.
However, reliability must also be accompanied by accuracy. Two raters may assign the same score, but both could be incorrect. In a well-developed test, the goal is for raters to consistently agree and be accurate in their scoring.
평가자 간의 완벽한 합의가 항상 현실적인 것은 아닙니다. 훈련과 전문성을 갖춘 평가자라도 의사, 엔지니어, 과학자처럼 때때로 의견이 일치하지 않을 수 있습니다. 목표는 점수의 용도를 고려할 때 방어할 수 있는 높은 일치도를 달성하는 것입니다.
Below are the statistical measures we use at Avant to evaluate the quality of ratings provided by our raters. While many companies report only exact and adjacent agreement, we assess additional measures to get a comprehensive view of rating quality. The measures reported in this paper include:
정확한 동의:
이 측정값은 분석된 전체 데이터 세트에서 평가자 1이 특정 응답에 부여한 레벨이 평가자 2가 부여한 레벨과 정확히 동일한 경우의 비율을 나타내는 백분율로 보고됩니다. 예를 들어, 평가자 1이 응답에 스탬프 레벨 5를 부여하고 평가자 2도 동일한 응답에 스탬프 레벨 5를 부여한 경우, 이는 정확히 일치하는 사례로 간주됩니다. 펠트와 브레넌(1989)은 두 명의 평가자를 사용하는 경우 최소 80%의 정확한 합의가 있어야 하며, 70%는 운영상 허용되는 것으로 간주한다고 제안합니다.
이 측정값은 백분율로 보고되며, 평가자 1과 평가자 2가 전체 데이터 세트에서 응답에 동일한 레벨을 부여한 빈도를 보여줍니다. 예를 들어, 두 평가자 모두 동일한 응답에 스탬프 레벨 5를 지정하면 정확한 일치 사례로 간주됩니다. 펠트와 브레넌(1989)에 따르면 정확한 일치도는 최소 80% 이상이어야 하며, 70%는 운영용으로 허용되는 것으로 간주합니다.
This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below.
정확히 + 인접한 계약:
이 측정값은 평가자 1과 평가자 2가 전체 데이터 세트에서 응답에 동일한 수준 또는 인접한 수준을 할당하는 빈도를 백분율로 표시하여 보고합니다.
예를 들어, 스탬프 레벨 5는 레벨 4 및 레벨 6에 인접합니다. 평가자 1이 레벨 4를 부여하고 평가자 2가 레벨 5를 부여하면 레벨이 인접하므로 이 척도에 포함됩니다. Graham 등(2012)에 따르면, 평가 척도가 5~7단계 이상인 경우 STAMP 척도와 마찬가지로 정확도 + 인접도 일치율이 90%에 가까워야 한다고 합니다.
This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below.
이차 가중 카파(QWK)
코헨의 카파(𝜅)는 두 평가자 간의 신뢰도를 측정하는 동시에 우연에 의한 일치 가능성을 고려합니다. 예를 들어 9점 스탬프 척도 ( 레벨 0에서 레벨 8까지)를 사용하면 두 평가자가 순전히 우연에 의해 점수에 동의할 확률은 11.11%입니다. 에서 Avant에서는 카파를 계산할 때 이차 가중치를 사용하므로 점수 간 불일치가 클수록 더 높은 페널티가 부여됩니다. 예를 들어, 스탬프 레벨 3과 레벨 7의 차이는 레벨 3과 레벨 4의 차이보다 더 문제가 됩니다.
윌리엄슨 외(2012)는 이차 가중 카파(QWK)가 0.70 이상이어야 한다고 권장하며, 플라이스(2003)는 0.75 이상의 값은 우연이 아닌 우수한 일치도를 나타낸다고 지적합니다. QWK 값이 0이면 순전히 우연에 의한 일치인 반면, 1이면 완벽한 일치를 의미합니다.
표준화 평균 차이(SMD)
이 측정값은 두 평가자가 평가 척도를 얼마나 비슷하게 사용하는지 보여줍니다. 두 세트의 점수(평가자 1과 평가자 2)의 평균 차이를 비교하여 해당 점수의 풀 표준 편차로 표준화합니다. 이상적으로는 두 평가자 모두 척도의 특정 수준을 선호하거나 피하지 않아야 합니다(예: 스탬프 0 또는 스탬프 8 피하기). 즉, 두 평가자 모두 응답에 나타난 숙련도를 반영하여 전체 범위(스탬프 0 - 스탬프 8)의 척도를 사용해야 합니다. 이 척도의 권장값은 ≤ 0.15 (Williamson et al., 2012)로, 두 점수 세트의 분포가 허용 가능한 수준으로 유사하다는 것을 나타냅니다.
스피어먼의 순위-순서 상관관계(ρ)
이 측정값은 평가자 1이 부여한 스탬프 수준과 평가자 2가 부여한 수준이라는 두 변수 간의 연관성의 강도를 나타냅니다. 평가자가 잘 훈련되어 있고 평가 루브릭을 이해한다면 두 평가자가 비슷한 레벨을 할당할 것으로 예상되며, 이는 점수가 함께 움직여야 함을 의미합니다. 즉, 평가자 1이 높은 레벨을 지정하면 평가자 2도 높은 레벨을 지정하여 동일한 구성에 대한 일관된 평가를 반영해야 합니다.
피어슨 상관계수 대신 스피어만 상 관계수를 사용하는 이유는 스피어만 상관계수가 STAMP 숙련도 수준과 같은 서수 데이터에 더 적합하기 때문입니다. 대부분의 분야에서 상관계수가 0.80 이상이면 강한 상관관계가 있는 것으로 간주됩니다(Akoglu, 2018).
2 스탬프 레벨 간격
백분율로 표시되는 이 측정값은 동일한 응답에 대한 두 평가가 얼마나 자주 두 개의 스탬프 레벨이 다른지 보여줍니다(예: 평가자 1은 스탬프 레벨 4를, 평가자 2는 스탬프 레벨 6을 할당).
상세 점수 통계
We now focus on the quality of the ratings for the Écriture and Parler sections of STAMP 4S and STAMP WS, considering the statistics above across several representative languages. Below, we present results based on two different sets of comparisons:
평가자 1 대 평가자 2
최소 두 명의 평가자가 평가한 수많은 응답에 대해 평가자 1이 부여한 스탬프 레벨과 평가자 2가 부여한 레벨을 비교합니다. 이 비교는 무작위로 배정된 두 명의 평가자가 부여한 평가의 신뢰성을 지원합니다. Avant 평가자. 앞서 언급했듯이 두 명의 평가자가 점수에 동의할 수 있지만 두 평가자 모두 틀릴 수 있습니다. 따라서 평가자 1과 평가자 2 간의 정확한 일치도 측정값은 포함하지 않습니다. 대신, 정확도 + 인접한 일치에 초점을 맞추고 평가자 1 (80%의 시간을 단독으로 평가)의 점수를 공식 점수와 비교한 정확도 측정값을 보고합니다.
평가자 1 대 공식 점수
Avant 평가자가 부여한 수준의 정확성을 평가하기 위해 두 명 이상의 평가자가 응답을 평가한 사례를 분석합니다. 모든 개별 평가에서 도출된 공식 점수를 평가자 1이 단독으로 부여한 점수와 비교합니다. 이를 통해 한 명의 평가자만 참여했을 때 응답이 얼마나 정확하게 평가되었는지를 알 수 있으며, 이는 80%의 경우에서 발생합니다.
Tables 1 and 2 present the statistical measures for the Écriture and Parler sections of five representative STAMP 4S languages.
Table 1 – Writing Score Accuracy (STAMP 4S)
| 측정 | Arabe | Espagnol | français | 중국어 간체 | Russe |
|---|---|---|---|---|---|
| 데이터 세트의 응답 수 | n = 3,703 | n = 4,758 | n = 4,785 | n = 4,766 | n = 3,536 |
| Exact Agreement (Rater 1 vs. Official Score) | (84.8%) | (84.15%) | (83.66%) | (88.46%) | (92.17%) |
| Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 96.78% (98.62%) | 99.09% (99.79%) | 99.22% (99.79%) | 99.79% (99.91%) | 99.71% (99.88%) |
| Quadratic Weight Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.93 (0.96) | 0.91 (0.95) | 0.91 (0.95) | 0.95 (0.96) | 0.95 (0.97) |
| Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00 (0.01) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) |
| Spearman’s Rank-Order Correlation ®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.94 (0.96) | 0.90 (0.95) | 0.91 (0.95) | 0.95 (0.97) | 0.94 (0.97) |
| 2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 2.80% (1.24%) | 0.90% (0.20%) | 0.77% (0.20%) | 0.00% (0.00%) | 0.28% (0.11%) |
Table 2 – Speaking Score Accuracy (STAMP 4S)
| 측정 | Arabe | Espagnol | français | 중국어 간체 | Russe |
|---|---|---|---|---|---|
| 데이터 세트의 응답 수 | n = 3,363 | n = 4,078 | n = 4,530 | n = 4,651 | n = 3,392 |
| Exact Agreement (Rater 1 vs. Official Score) | (84.96%) | (80.37%) | (80.19%) | (82.24%) | (88.30%) |
| Exact + Adjacent Agreement: Rater 1 vs. Rater (Rater 1 vs. Official Score) | 96.07% (98.13%) | 98.13% (99.29%) | 98.54% (99.47%) | 99.31% (99.76%) | 98.99% (99.94%) |
Quadratic Weight Kappa (QWK): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.92 (0.95) | 0.92 (0.96) | 0.91 (0.95) | 0.94 (0.95) | 0.92 (0.96) |
| Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official ) | -0.02 (0.01) | 0.00 (0.00) | -0.01 (0.02) | 0.00 (0.00) | -0.01 (-0.01) |
| Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.93 (0.96) | 0.91 (0.95) | 0.92 (0.95) | 0.94 (0.96) | 0.91 (0.95) |
| 2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 3.27% (1.42%) | 1.74% (0.00%) | 1.39% (0.00%) | 0.00% (0.00%) | 1.01% (0.00%) |
표 3과 4는 대표적인 세 가지 STAMP WS 언어의 쓰기 및 말하기 영역에 대한 통계적 측정값을 보여줍니다.
표 3 쓰기 점수 정확도(STAMP WS)
| 측정 | Amharique | Créole haïtien | Vietnamien |
|---|---|---|---|
| 데이터 세트의 응답 수 | n = 209 | n = 125 | n = 1,542 |
| Exact Agreement (Rater 1 vs. Official Score) | 95.79% | 94.69% | 94.38% |
| Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 99.52% (100%) | 97.60% (100%) | 98.57% (99.02%) |
| Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.98 (0.99) | 0.97 (0.99) | 0.96 (0.97) |
| Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | -0.01 (0.00) | 0.02 (-0.02) | -0.01 (0.01) |
| Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.98 (0.99) | 0.97 (0.99) | 0.97 (0.98) |
| 2 STAMP Levels Apart Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00% (0.00%) | 2.40% (0.00%) | 0.00% (0.00%) |

표 4 말하기 점수 정확도(STAMP WS)
| 측정 | Amharique | Créole haïtien | Vietnamien |
|---|---|---|---|
| 데이터 세트의 응답 수 | n = 225 | n = 132 | n = 1,180 |
| Exact Agreement (Rater 1 vs. Official Score) | (96.21%) | (97.91%) | (97.01%) |
| Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 100% (100%) | 100% (100%) | 99.83% (99.83%) |
| Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.99 (0.99) | 0.99 (0.99) | 0.99 (0.98) |
| Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.01) |
| Spearman’s Rank-Order Correlation® Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.99 (0.99) | 0.99 (0.99) | 0.98 (0.99) |
| 2 STAMP Levels Apart (Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00% (0.00%) | 0.00% (0.00%) | 0.00% (0.00%) |

토론
A high level of reliability and accuracy is fundamental to the validity of test scores and their intended uses. What is deemed minimally acceptable in terms of reliability and accuracy will however, depend on the specific field (medicine, law, sports, forensics, language testing, etc), as well as on the consequences of awarding an inaccurate level to a specific examinee’s set of responses, and on the rating scale itself. For example, agreement will tend to be lower the higher the number of categories available in a rating scale. In other words, more disagreement between any two raters can be expected if they must assign one of ten possible levels to a response than if they must assign one of only four possible levels.
STAMP 4S와 STAMP WS의 쓰기 및 말하기 영역에 대한 위의 통계는 신뢰도(평가자 1 대 평가자 2 점수)와 정확도(평가자 1 대 공식 점수) 모두에서 높은 수준을 보여줍니다.
평가된 8개 언어 중 평가자 1과 평가자 2의 정확도 + 인접 일치에서 보이는 신뢰도는 쓰기에서 96.78%, 말하기에서 96.07%로 항상 최소(그리고 종종 상당히 높은 수준)입니다.
또한 두 채점자의 평가가 두 스탬프 레벨 이상 차이가 나는 경우는 매우 드물었습니다. 8개 언어 모두에 대한 정확도 수준은 각 응답에 대한 채점자 1의 점수와 공식 점수 사이의 정확한 일치 통계에서 볼 수 있듯이 쓰기에서 항상 최소 83.66%, 말하기에서 80.19%이며, 정확한 + 인접 일치에서는 쓰기에서 항상 최소 98.62%, 말하기에서 98.13%입니다. 평가자 1과 평가자 2, 그리고 평가자 1과 공식 점수 간에는 매우 높은 수준의 일치도가 나타났으며, 평가자 1과 평가자 2 점수, 그리고 평가자 1과 공식 점수 간에는 매우 높은 상관관계가 나타났습니다. 마지막으로, SMD(표준화 평균 차이) 계수를 보면 Avant 평가자가 STAMP 척도를 매우 유사한 방식으로 사용하고 있음을 알 수 있습니다.
위의 통계는 Avant 평가의 평가자 선정 및 교육 프로그램의 높은 품질과 평가자 풀에서 일시적으로 제거되어 목표 교육을 받아야 할 수 있는 운영 평가자를 식별하는 방법론에 대한 증거를 제공합니다. 평가자 두 명이 응답에 부여하는 스탬프 레벨이 다를 수 있지만, 그 차이는 거의 1스탬프 레벨을 넘지 않으며 대부분의 경우 두 평가자가 정확히 동일한 레벨을 부여하는 것으로 나타났습니다. 또한, STAMP의 쓰기 또는 말하기 섹션에서 수험생의 최종 공식 점수는 세 개의 독립적인 프롬프트에 대한 개별 STAMP 점수를 기반으로 합니다.
이 결과는 STAMP의 쓰기 및 말하기 영역에 대한 수험생의 최종 점수가 이 두 영역의 언어 능력 수준을 신뢰할 수 있고 정확하게 나타내는 것으로 신뢰할 수 있다는 강력한 증거를 제공합니다.
참조
Akoglu, H. (2018). 상관 계수에 대한 사용자 가이드. 터키 응급 의학 저널, 18(3), 91-93.
Bachman, L. F., & Palmer, A. S. (1996). 실제 언어 테스트: 유용한 언어 테스트 설계 및 개발 (1 권). 옥스포드 대학 출판부.
펠트, L. S., & 브레넌, R. (1989). 신뢰성. R. L. Linn (Ed.)에서 교육 측정 (3 판, 105-146 쪽). New York: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). 비율과 비율에 대한 통계적 방법. 3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012).
교사 및 교장 성과 평가의 평가자 간 합의 측정 및 촉진.
매트릭스 교육(2022). 물리학 실무 기술 파트 2: 실험의 타당성, 신뢰성 및 정확성. 2022년 8월 11일에 검색됨 (출처로 이동하려면 여기를 클릭).
Williamson, D. M., Xi, X., & Breyer, F. J. (2012). 자동화된 평가 및 사용을 위한 프레임워크
채점. 교육 측정: 이슈와 실천, 31(1), 2-13.

