Fiabilidad y exactitud | Avant Evaluación

Visión general

Accurate and reliable scores are essential in language proficiency testing. The Lecture and Écoute sections of STAMP are multiple-choice, which allows for automatic scoring. The Écriture and Parlerallow open-ended responses, which involves human raters.

Puntuación automática

Human Rated*

*This research used only human-scored responses, preceding Avant’s automated grading system.

Por este motivo, Avant se compromete a garantizar que la precisión de nuestros evaluadores sea lo más alta posible.

For this reason, Avant is committed to making sure our rating accuracy and agreement between different raters are as high as possible.

A recent analysis of over 23,000 responses for Écriture and Parler ratings for five STAMP 4S languages (Arabic, Spanish, French, Simplified Chinese, and Russian) and three STAMP WS languages (Amharic, Haitian Creole, and Vietnamese) found that Avant’s raters demonstrated high scoring accuracy and inter-rater agreement , making the scores awarded in the Writing and Speaking sections of STAMP accurate and reliable for their intended purposes.

Cómo se puntúa el dominio de la expresión escrita y oral

The study examined the Écriture and Parler sections of STAMP, scored by trained raters using STAMP levels from 0 (No Proficiency) to 8 (Advanced-Mid).

Examinees respond to three real-world prompts, showcasing their skills. Certified raters independently score each response, backed by rigorous training and ongoing monitoring to ensure accuracy and consistency.

For 80% of responses, a single rater’s score is official. For the remaining 20%, at least two raters score the response, with a manager resolving disagreements. Raters work independently, ensuring unbiased results. The final Écriture or Parler scores seen in our reports reflects the highest level consistently demonstrated across at least two of the three prompts.

El gráfico siguiente ilustra este proceso:

Figura 1. Reglas del sistema Reglas del sistema para determinar el nivel STAMP final de un examinando en las secciones de expresión escrita y oral

Cuadro de procedimientos de puntuación de la precisión del STAMP. — Figura 1. Reglas del sistema Reglas del sistema para determinar el nivel STAMP final de un examinando en las secciones de expresión escrita y oral

As shown in Figure 1, an examinee’s official STAMP level is determined by the highest level they can consistently demonstrate in at least two out of three responses. For example, if an examinee receives Novice-Mid for their first response, Débutant-Élevé for their second, and Débutant-Élevé for their third, their final STAMP level is STAMP 3 (Novice-High). Alternatively, if they receive Intermédiaire-Faible for the first response, Débutant-Élevé for the second, and Intermédiaire-Moyen for the third, their final level is Intermédiaire-Faible, as it is the highest level they sustained twice (in the first and third responses).

El uso de tres preguntas independientes en las secciones de expresión oral y escrita del STAMP tiene dos ventajas principales:

Cobertura temática más amplia: Evaluar a los examinandos en diferentes temas garantiza que el nivel de competencia obtenido se pueda generalizar a otras situaciones del mundo real.
Minimizar el sesgo de los calificadores: junto con el método de calificación, el uso de múltiples indicaciones ayuda a reducir el posible sesgo de calificación de los calificadores individuales.

A continuación hablaremos de las definiciones de fiabilidad y precisión.

Fiabilidad frente a precisión

Figure 2: The difference between reliability and accuracy. Ideally, tests should be both reliable and accurate, as this ensures the validity of the scores for their intended use and interpretation

Fiabilidad

La fiabilidad se refiere a la consistencia de la medición (Bachman y Palmer, 1996). En términos sencillos, se refiere a hasta qué punto podemos confiar en que las puntuaciones de la prueba seguirán siendo las mismas si un examinado vuelve a realizar la prueba en momentos diferentes o realiza diferentes versiones de la prueba, suponiendo que su competencia no haya cambiado.

For example, if an examinee scores Intermédiaire-Faible today and Intermédiaire-Élevé tomorrow, without any change in their knowledge or mental state, it suggests the test may not be highly reliable. Similarly, if an examinee scores Avancé-Bas on one version of a test and Intermédiaire-Moyen on another, it indicates a lack of consistency, pointing to an issue with the test’s reliability.

One factor contributing to a test’s reliability is how it is scored. In the STAMP test, the Lecture and Écoute sections are made up of multiple-choice questions that are scored automatically by a computer. This ensures that if an examinee provides the same answers on different occasions, they will always receive the same score.

However, the Écriture and Parler sections involve scoring by human raters. This means that scores can vary depending on who rates the response. However, with well-trained raters, we expect score variations to be minimal, reducing the impact of leniency, strictness, or potential bias.

Precisión

Los examinandos esperan que sus puntuaciones reflejen únicamente su competencia en el constructo que se mide (en el STAMP, competencia en cada dominio lingüístico).

Accuracy refers to how well the awarded score represents an examinee’s true ability. For example, if an examinee submits a Speaking response at the Intermédiaire-Élevé level but receives an Intermédiaire-Faible score from two raters, the score is inaccurate. Even if two other raters assign Intermédiaire-Faible two months later, the score remains inaccurate, although it is reliable (since it is consistent across raters and over time).

Evaluación de la fiabilidad y precisión de las puntuaciones de los evaluadores

Cuando las respuestas son puntuadas por evaluadores humanos, como en el caso del STAMP, es fundamental garantizar que las puntuaciones reflejen la calidad de la respuesta en sí, y no las características del evaluador. En otras palabras, las puntuaciones deben depender únicamente de la competencia demostrada por el examinando, y no de la indulgencia, el rigor o la parcialidad del evaluador.

Los proveedores de pruebas de lengua suelen utilizar estadísticas para mostrar cuánto pueden variar las puntuaciones en función del evaluador. Normalmente, se trata de comparar las puntuaciones de dos evaluadores distintos en la misma respuesta. Lo ideal es que los calificadores coincidan en la mayor medida posible, lo que indica que el proceso de calificación es fiable.

However, reliability must also be accompanied by accuracy. Two raters may assign the same score, but both could be incorrect. In a well-developed test, the goal is for raters to consistently agree and be accurate in their scoring.

La concordancia perfecta entre evaluadores humanos no siempre es realista. A pesar de la formación y la experiencia, incluso los evaluadores cualificados pueden discrepar en ocasiones, al igual que los médicos, ingenieros o científicos. El objetivo es lograr una concordancia elevada que sea defendible dado el uso previsto de las puntuaciones.

Below are the statistical measures we use at Avant to evaluate the quality of ratings provided by our raters. While many companies report only exact and adjacent agreement, we assess additional measures to get a comprehensive view of rating quality. The measures reported in this paper include:

Acuerdo exacto:

Esta medida se presenta como un porcentaje que indica el porcentaje de veces, en todo el conjunto de datos analizado, en que el nivel otorgado a una determinada respuesta por el Calificador 1 es exactamente el mismo que el otorgado por el Calificador 2. Por ejemplo, si el evaluador 1 otorga un nivel 5 de STAMP a una respuesta y el evaluador 2 también otorga un nivel 5 de STAMP a esa misma respuesta, se consideraría un caso de concordancia exacta. Feldt y Brennan (1989) sugieren que, cuando se utilizan dos calificadores, debe haber una concordancia exacta de al menos el 80%, considerándose aceptable para uso operativo el 70%.

Esta medida se presenta en forma de porcentaje y muestra la frecuencia con la que el evaluador 1 y el evaluador 2 asignaron el mismo nivel a una respuesta en todo el conjunto de datos. Por ejemplo, si ambos evaluadores asignan un nivel 5 de STAMP a la misma respuesta, se considera un caso de concordancia exacta. Según Feldt y Brennan (1989), la concordancia exacta debe ser de al menos un 80%, considerándose aceptable un 70% para uso operativo.

This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below.

Acuerdo exacto + adyacente:

Esta medida se presenta como un porcentaje que muestra con qué frecuencia el Calificador 1 y el Calificador 2 asignaron el mismo nivel o un nivel adyacente a una respuesta en todo el conjunto de datos.

Por ejemplo, el nivel 5 del STAMP es adyacente al nivel 4 y al nivel 6. Si el evaluador 1 asigna el nivel 4 y el evaluador 2 asigna el nivel 5, cuenta para esta medida porque los niveles son adyacentes. Según Graham et al. (2012), cuando una escala de calificación tiene más de 5-7 niveles, como ocurre con la escala STAMP, la concordancia exacta + adyacente debe ser cercana al 90%.

Kappa cuadrática ponderada (QWK)

La kappa de Cohen (𝜅) mide la fiabilidad entre dos evaluadores teniendo en cuenta la posibilidad de acuerdo por azar. Por ejemplo, con la escala STAMP de 9 puntos (del nivel 0 al nivel 8), hay un 11,11% de posibilidades de que dos evaluadores coincidan en una puntuación por pura casualidad. En Avanttambién utilizamos ponderaciones cuadráticas al calcular kappa, lo que significa que se penalizan más las discrepancias mayores entre puntuaciones. Por ejemplo, una diferencia entre el nivel 3 y el nivel 7 del STAMP es más problemática que una diferencia entre el nivel 3 y el nivel 4.

Williamson et al. (2012) recomiendan que la kappa ponderada cuadráticamente (QWK) sea ≥ 0,70, mientras que Fleiss (2003) señala que los valores superiores a 0,75 indican un acuerdo excelente más allá del azar. Un valor de QWK de 0 significa que el acuerdo es puramente casual, mientras que un valor de 1 indica un acuerdo perfecto.

Diferencia de medias estandarizada (DME)

Esta medida muestra la similitud entre dos calificadores en el uso de una escala de calificación. Compara la diferencia en la media de dos conjuntos de puntuaciones (Calificador 1 frente a Calificador 2), estandarizada por la desviación estándar conjunta de dichas puntuaciones. Lo ideal es que ninguno de los calificadores favorezca o evite determinados niveles de la escala (por ejemplo, evitar el STAMP 0 o el STAMP 8). En otras palabras, ambos evaluadores deberían utilizar el rango completo de la escala(STAMP 0 - STAMP 8), con puntuaciones que reflejen la competencia demostrada en la respuesta. El valor recomendado para esta medida es ≤ 0,15 (Williamson et al., 2012), lo que indica que las distribuciones de ambos conjuntos de puntuaciones son aceptablemente similares.

Correlación de rango de Spearman (ρ)

Esta medida indica la fuerza de la asociación entre dos variables: el nivel STAMP asignado por el evaluador 1 y el nivel asignado por el evaluador 2. Si los evaluadores están bien formados y comprenden la rúbrica de calificación, es de esperar que ambos asignen niveles similares. Si los evaluadores están bien formados y comprenden la rúbrica de calificación, esperamos que ambos asignen niveles similares, es decir, que las puntuaciones se muevan a la par. En otras palabras, cuando el evaluador 1 asigna un nivel alto, el evaluador 2 también debería asignar un nivel alto, lo que refleja una evaluación coherente del mismo constructo.

Utilizamos el coeficiente de correlación de orden de rango de Spearman en lugar del de Pearson porque el de Spearman es más adecuado para datos ordinales, como los niveles de competencia del STAMP. Un coeficiente de correlación de 0,80 o superior se considera fuerte en la mayoría de los campos (Akoglu, 2018).

2 niveles STAMP aparte

Esta medida, expresada en porcentaje, muestra con qué frecuencia dos valoraciones de la misma respuesta difieren en 2 niveles STAMP (por ejemplo, el valor 1 asigna un nivel STAMP 4 y el valor 2 asigna un nivel STAMP 6).

Cuadro sinóptico

Bar chart titled 'Avant STAMP Score Accuracy Overview' showing Exact and Exact + Adjacent Agreement percentages for STAMP 4S and STAMP WS writing and speaking. Writing: Exact = 86.6% / 94.9%, Exact + Adjacent = 99.6% / 99.7%. Speaking: Exact = 83.2% / 97%, Exact + Adjacent = 99.3% / 99.9%. Reference lines mark Acceptable (70–75%) and Desirable (80–90%) thresholds. — Gráfico que muestra la alta precisión de los evaluadores de Avant en las secciones de expresión escrita y oral.

Estadísticas detalladas de puntuación

We now focus on the quality of the ratings for the Écriture and Parler sections of STAMP 4S and STAMP WS, considering the statistics above across several representative languages. Below, we present results based on two different sets of comparisons:

Calificador 1 vs Calificador 2

Comparamos el nivel STAMP otorgado por el evaluador 1 con el otorgado por el evaluador 2 en numerosas respuestas evaluadas por al menos dos evaluadores. Esta comparación corrobora la fiabilidad de las calificaciones de dos calificadores Avant al azar. Como se ha indicado anteriormente, dos evaluadores pueden coincidir en una puntuación, pero ambos pueden ser incorrectos. Por lo tanto, no incluimos medidas de concordancia exacta entre el Calificador 1 y el Calificador 2. En su lugar, nos centramos en la Concordancia exacta + Adecuada. En su lugar, nos centramos en el acuerdo exacto + adyacente e informamos de las medidas de precisión comparando las puntuaciones del evaluador 1 (que califica en solitario el 80% de las veces) con las puntuaciones oficiales.

Calificador 1 frente a la puntuación oficial

Para evaluar la precisión de los niveles asignados por los calificadores de Avant , analizamos los casos en los que una respuesta fue calificada por dos o más calificadores. Comparamos la puntuación oficial (derivada de todas las puntuaciones individuales) con la puntuación dada por el Evaluador 1 solo. Esto ayuda a indicar la precisión con la que se valora una respuesta cuando sólo interviene un evaluador, lo que ocurre en el 80% de los casos.

Tables 1 and 2 present the statistical measures for the Écriture and Parler sections of five representative STAMP 4S languages.

Table 1 – Writing Score Accuracy (STAMP 4S)

Medida	Arabe	Espagnol	français	Chino simplificado	Russe
Número de respuestas en el conjunto de datos	n = 3,703	n = 4,758	n = 4,785	n = 4,766	n = 3,536
Exact Agreement (Rater 1 vs. Official Score)	(84.8%)	(84.15%)	(83.66%)	(88.46%)	(92.17%)
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	96.78% (98.62%)	99.09% (99.79%)	99.22% (99.79%)	99.79% (99.91%)	99.71% (99.88%)
Quadratic Weight Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.93 (0.96)	0.91 (0.95)	0.91 (0.95)	0.95 (0.96)	0.95 (0.97)
Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.00 (0.01)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)
Spearman’s Rank-Order Correlation ®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.94 (0.96)	0.90 (0.95)	0.91 (0.95)	0.95 (0.97)	0.94 (0.97)
2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	2.80% (1.24%)	0.90% (0.20%)	0.77% (0.20%)	0.00% (0.00%)	0.28% (0.11%)

Tabla 1 Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de cinco lenguas representativas del STAMP 4S.

Table 2 – Speaking Score Accuracy (STAMP 4S)

Medida	Arabe	Espagnol	français	Chino simplificado	Russe
Número de respuestas en el conjunto de datos	n = 3,363	n = 4,078	n = 4,530	n = 4,651	n = 3,392
Exact Agreement (Rater 1 vs. Official Score)	(84.96%)	(80.37%)	(80.19%)	(82.24%)	(88.30%)
Exact + Adjacent Agreement: Rater 1 vs. Rater (Rater 1 vs. Official Score)	96.07% (98.13%)	98.13% (99.29%)	98.54% (99.47%)	99.31% (99.76%)	98.99% (99.94%)
Quadratic Weight Kappa (QWK): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.92 (0.95)	0.92 (0.96)	0.91 (0.95)	0.94 (0.95)	0.92 (0.96)
Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official )	-0.02 (0.01)	0.00 (0.00)	-0.01 (0.02)	0.00 (0.00)	-0.01 (-0.01)
Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.93 (0.96)	0.91 (0.95)	0.92 (0.95)	0.94 (0.96)	0.91 (0.95)
2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	3.27% (1.42%)	1.74% (0.00%)	1.39% (0.00%)	0.00% (0.00%)	1.01% (0.00%)

Tabla 2. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de cinco STAMP representativos

Las tablas 3 y 4 muestran las medidas estadísticas de las secciones de expresión escrita y expresión oral de tres lenguas representativas del STAMP WS.

Tabla 3 Precisión de la puntuación escrita (STAMP WS)

Medida	Amharique	Créole haïtien	Vietnamien
Número de respuestas en el conjunto de datos	n = 209	n = 125	n = 1,542
Exact Agreement (Rater 1 vs. Official Score)	95.79%	94.69%	94.38%
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	99.52% (100%)	97.60% (100%)	98.57% (99.02%)
Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.98 (0.99)	0.97 (0.99)	0.96 (0.97)
Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	-0.01 (0.00)	0.02 (-0.02)	-0.01 (0.01)
Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.98 (0.99)	0.97 (0.99)	0.97 (0.98)
2 STAMP Levels Apart Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.00% (0.00%)	2.40% (0.00%)	0.00% (0.00%)

Tabla 3. Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de tres idiomas representativos del STAMP WS.

Tabla de precisión STAMP 3. — Tabla 3. Estadísticas de fiabilidad y precisión del evaluador para la sección de escritura de tres idiomas representativos del STAMP WS.

Tabla 4 Precisión de la puntuación de expresión oral (STAMP WS)

Medida	Amharique	Créole haïtien	Vietnamien
Número de respuestas en el conjunto de datos	n = 225	n = 132	n = 1,180
Exact Agreement (Rater 1 vs. Official Score)	(96.21%)	(97.91%)	(97.01%)
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	100% (100%)	100% (100%)	99.83% (99.83%)
Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.99 (0.99)	0.99 (0.99)	0.99 (0.98)
Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.00 (0.00)	0.00 (0.00)	0.00 (0.01)
Spearman’s Rank-Order Correlation® Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.99 (0.99)	0.99 (0.99)	0.98 (0.99)
2 STAMP Levels Apart (Rater 1 vs. Rater 2 (Rater 1 vs. Official Score)	0.00% (0.00%)	0.00% (0.00%)	0.00% (0.00%)

Tabla 4. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de tres idiomas representativos del STAMP WS.

TABLA 4 DE PRECISIÓN DEL ESTAMPAJE — Tabla 4. Estadísticas de fiabilidad y precisión del evaluador para la sección de expresión oral de tres idiomas representativos del STAMP WS.

Debate

A high level of reliability and accuracy is fundamental to the validity of test scores and their intended uses. What is deemed minimally acceptable in terms of reliability and accuracy will however, depend on the specific field (medicine, law, sports, forensics, language testing, etc), as well as on the consequences of awarding an inaccurate level to a specific examinee’s set of responses, and on the rating scale itself. For example, agreement will tend to be lower the higher the number of categories available in a rating scale. In other words, more disagreement between any two raters can be expected if they must assign one of ten possible levels to a response than if they must assign one of only four possible levels.

Las estadísticas anteriores para las secciones de expresión escrita y oral de STAMP 4S y STAMP WS muestran un alto nivel de fiabilidad (puntuaciones del evaluador 1 frente a las del evaluador 2) y precisión (puntuaciones del evaluador 1 frente a las puntuaciones oficiales).

De las ocho lenguas evaluadas, la fiabilidad observada por el Acuerdo Exacto + Adyacente entre el Evaluador 1 y el Evaluador 2 es siempre como mínimo (y a menudo considerablemente superior) del 96,78% para la expresión escrita y del 96,07% para la expresión oral.

Además, rara vez se observaron casos en los que las puntuaciones de dos evaluadores estuvieran separadas por más de dos niveles STAMP. El nivel de precisión en las ocho lenguas, según las estadísticas de concordancia exacta entre la puntuación del evaluador 1 y la puntuación oficial para cada respuesta, es siempre de un mínimo del 83,66% (pero a menudo considerablemente superior) para la expresión escrita y del 80,19% para la expresión oral, con una concordancia exacta + adyacente siempre de un mínimo del 98,62% para la expresión escrita y del 98,13% para la expresión oral. Los valores de Kappa Cuadrática Ponderada (QWK) muestran un nivel muy alto de concordancia tanto entre el Calificador 1 y el Calificador 2 como entre el Calificador 1 y las Puntuaciones Oficiales, mientras que la correlación entre las puntuaciones del Calificador 1 y el Calificador 2, así como entre el Calificador 1 y las Puntuaciones Oficiales, han demostrado ser muy altas. Por último, los coeficientes SMD (Standardized Mean Differences) muestran que la escala STAMP es utilizada de forma muy similar por los evaluadores de Avant .

Las estadísticas anteriores demuestran la alta calidad del programa de selección y formación de evaluadores de Avant Assessment y de nuestra metodología para identificar a los evaluadores operativos que pueden necesitar ser retirados temporalmente del grupo de evaluadores y recibir una formación específica. Demuestra que cuando dos evaluadores pueden diferir en el nivel STAMP asignado a una respuesta, la diferencia raramente será de más de 1 nivel STAMP, asignando ambos evaluadores exactamente el mismo nivel en la gran mayoría de los casos. Si a esto le sumamos el hecho de que la puntuación final oficial de un examinando en la sección de expresión escrita o en la de expresión oral del STAMP se basa en sus puntuaciones STAMP individuales en tres preguntas independientes.

Los resultados que aquí se presentan son una prueba fehaciente de que la puntuación final de un examinando en las secciones de expresión escrita y oral del STAMP puede considerarse una representación fiable y precisa de su nivel de competencia lingüística en estos dos ámbitos.

Referencias

Akoglu, H. (2018). Guía del usuario para coeficientes de correlación. Revista turca de medicina de urgencias, 18(3), 91-93.

Bachman, L. F., y Palmer, A. S. (1996). Pruebas de lengua en la práctica: Designing and developing useful language tests (Vol. 1). Oxford University Press.

Feldt, L. S., y Brennan, R. (1989). Reliability. En R. L. Linn (Ed.), Educational measurement (3ª ed., pp. 105-146). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical methods for rates and proportions. 3rd ed. Wiley.

Graham, M., Milanowski, A., y Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.

Matrix Education (2022). Physics Practical Skills Part 2: Validity, Reliability and Accuracy of Experiments. Recuperado el 11 de agosto de 2022 (haga clic aquí para ir a la fuente).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Medición educativa: cuestiones y práctica, 31(1), 2-13.

Mise à jour : Octobre 2025