Qui évalue les tests STAMP ?
Les réponses évaluées par l'homme dans le Avant STAMP, , Test de compétence en arabe (APT), et les tests de langue patrimoniale espagnole sont évalués par des évaluateurs certifiés Avant qui sont des éducateurs / locuteurs de langues qui répondent aux exigences minimales suivantes :
- COMPÉTENCE LINGUISTIQUE : Les évaluateurs doivent maintenir un niveau avancé ou supérieur de compétences linguistiques (déterminé par entretien téléphonique ou score de test provenant d'une évaluation approuvée, c'est-à-dire, STAMP4S, OPI, Entretien ILR, MOPI, ou certification d'enseignant Praxis/état.)
- ÉDUCATION : Les évaluateurs doivent détenir un diplôme de licence ou supérieur
- FORMATION & CERTIFICATION : Les évaluateurs doivent compléter le Programme de Formation des Évaluateurs Avant spécifique à la langue et obtenir un accord de 90% dans l'évaluation de certification
- DISPONIBILITÉ : Les évaluateurs doivent être disponibles pour noter un nombre spécifié d'éléments (réponses des étudiants) chaque semaine (déterminé par le Responsable de l'évaluation dans la langue spécifique et l'évaluateur)
Comment les évaluateurs certifiés Avant sont-ils formés ?
Tous les évaluateurs doivent terminer le Programme de Formation des Évaluateurs Avant et réussir un test de certification avant d'être autorisés à noter les réponses des étudiants. Le processus de formation comprend cinq étapes et prend généralement environ 11-13 heures de travail individuel et environ 2-3 heures avec un Responsable de Formation des Évaluateurs pour terminer.
- ACADEMIC PREPARATION: Rater candidates study Avant Rater Training materials that explain the proficiency levels based on US national proficiency standards and ILR Proficiency Descriptors and learn how Avant applies these levels to test-taker responses. The goal of this step is to orient the rater candidates to the issues experienced in rating constructed response items (speaking and writing) and outline the range of scores that Avant’s system can assign to test-taker responses. Step 1 is an independent study phase with an expected time commitment of 3-5 hours.
- EXAMEN GUIDÉ ET INTRODUCTION AU SYSTÈME DE CONNEXION DES ÉVALUATEURS (RC) : Le candidat évaluateur rencontre son Responsable de Formation des Évaluateurs assigné pour discuter et clarifier les éléments clés des matériaux de formation, y compris les niveaux de compétence et les détails qui sont utilisés pour identifier les différents niveaux. Le Responsable de Formation des Évaluateurs aide ensuite l'évaluateur potentiel à accéder au logiciel de Connexion des Évaluateurs en ligne d'Avant (voir Étape 3) et le guide à travers plusieurs réponses, montrant comment utiliser le Système de Connexion des Évaluateurs. L'Étape 2 est généralement réalisée sous forme de réunion virtuelle entre le candidat évaluateur et le Responsable de Formation des Évaluateurs, avec un engagement de temps prévu de 2 à 3 heures.
- PRATIQUE AVEC LE SYSTÈME DE CONNEXION ÉVALUATEUR (RC) : Le RC d'Avant permet au candidat évaluateur de noter des réponses d'entraînement/ancrage sélectionnées et de recevoir un retour immédiat sur leur évaluation de chaque réponse. Le but de cette étape du processus de formation est d'exposer le candidat évaluateur à de nombreuses réponses de candidats qui ont été préalablement notées par les Évaluateurs Maîtres d'Avant. Chaque réponse d'entraînement comprend une annotation détaillée ou une explication de la raison pour laquelle l'élément a été noté de la manière dont il l'a été. Ce processus permet au candidat évaluateur d'évaluer une variété de réponses à tous les niveaux avec un retour immédiat afin d'intérioriser et d'appliquer les critères de notation. L'étape 3 est une séance de pratique en ligne indépendante avec un engagement de temps prévu de 4 à 5 heures ou plus si nécessaire, pour compléter les banques de réponses d'entraînement.
- ANALYSE GUIDÉE DE LA PRATIQUE DE CONNEXION DE L'ÉVALUATEUR : Une fois que le candidat évaluateur a terminé les réponses de formation dans le RC, le candidat rencontre son Responsable de Formation des Évaluateurs assigné pour discuter et clarifier les problèmes qui sont survenus lors de la session de notation pratique. Plus précisément, les réponses qui n'ont pas été notées correctement sont revues et les questions concernant les critères de notation et les descriptions de niveau et leur application aux réponses sont répondues. Le Responsable de Formation des Évaluateurs est capable de voir quels critères le futur évaluateur a eu du mal à comprendre et peut rapidement identifier les zones qui nécessitent un soutien ou une formation supplémentaire. À ce stade, le Responsable de Formation des Évaluateurs peut décider de faire répéter l'Étape 3 du Programme de Formation des Évaluateurs Avant au futur évaluateur ou de passer à l'Étape 5 pour la certification. L'Étape 4 est généralement réalisée sous forme de réunion virtuelle entre les candidats évaluateurs et le Responsable de Formation des Évaluateurs avec un engagement de temps prévu d'une heure ou plus en fonction du nombre de zones qui doivent être examinées.
- CERTIFICATION : La dernière étape du Programme de Formation des Évaluateurs Avant consiste en ce que le candidat évaluateur réussisse un test de certification en obtenant un accord de 90% ou plus dans la notation avec les Évaluateurs Maîtres Avant. Pour compléter ce test, le candidat évaluateur accède au Système de Connexion des Évaluateurs et note une banque de certification de réponses dans un processus qui reproduit l'expérience qu'ils auront lorsqu'ils noteront les réponses des étudiants dans le système en direct. La banque de certification se compose de réponses précédemment notées par les Évaluateurs Maîtres Avant, mais sans les annotations ou commentaires fournis pendant les sessions de formation. À la conclusion du test de certification, le candidat évaluateur est informé de son score. Le Responsable de la Formation des Évaluateurs rencontre ensuite le candidat évaluateur pour identifier les problèmes de notation, les engageant dans des activités de reformation si nécessaire. Les candidats évaluateurs, qui atteignent un accord de 90% ou plus avec les Évaluateurs Maîtres Avant, sont désignés comme Évaluateurs Certifiés Avant qui sont qualifiés pour noter les réponses actives du test STAMP.
- ÉVALUATION EN DIRECT : Après que le candidat évaluateur ait terminé tous les éléments de formation et réussi le test de certification, il/elle se voit donner accès aux réponses en direct dans le Système de Connexion des Évaluateurs. Le nouvel Évaluateur Certifié est alors invité à entrer dans le système et à évaluer un lot (25 réponses), en informant leur Gestionnaire d'Évaluateurs lorsqu'ils ont terminé le lot. Le Gestionnaire d'Évaluateurs se rend ensuite sur le site Admin pour examiner chaque élément noté par l'Évaluateur Certifié afin de vérifier l'exactitude des scores. Lorsque le Gestionnaire d'Évaluateurs est satisfait de l'exactitude de l'évaluation des réponses par le nouvel Évaluateur Certifié, l'Évaluateur peut continuer à évaluer. Le Gestionnaire d'Évaluateurs continue de surveiller de près le nouvel Évaluateur Certifié pendant les premières semaines d'évaluation.
- Ce programme Avant Rater a été développé et affiné pour répondre aux exigences de l'établissement de niveaux élevés de qualité et de précision dans tous les évaluateurs Avant. Une formation ponctuelle a également lieu de manière continue alors que les gestionnaires d'évaluateurs spécifiques à la langue Avant examinent chaque jour la fiabilité et les statistiques de précision entre les évaluateurs. Le système de notation STAMP facilite une surveillance constante des tendances de notation et alerte les gestionnaires d'évaluation des problèmes de notation et des anomalies afin qu'une reformation juste à temps puisse avoir lieu.
Comment sont évalués les tests STAMP ?
L'évaluation humaine des réponses aux éléments de test Avant STAMP est effectuée dans l'environnement en ligne de Rater Connection. Les éléments de test de lecture et d'écoute (à choix multiples) sont notés par ordinateur. Les réponses construites (parler et écrire) sont évaluées par des évaluateurs certifiés Avant via une interface web. Plus précisément, le système de notation en ligne distribué d'Avant, le système Rater Connection, gère toutes les réponses des étudiants et facilite la notation en distribuant des files d'attente de 25 réponses écrites ou parlées aux évaluateurs certifiés Avant lorsqu'ils se connectent au système. Les évaluateurs notent chaque réponse dans un processus d'assistant étape par étape, en considérant soigneusement chacun des quatre éléments de notation ou critères.
Les Quatre Éléments de Notation Pour les Tests de Compétence Linguistique Avant
- La réponse est-elle évaluable et en adéquation avec la tâche ?
- Quel type de texte ou quelle quantité de langage spécifique à un niveau est évident ?
- Quelle est la qualité du texte en termes de compréhensibilité globale ?
- Quelle est la précision globale de la réponse?
Le système de notation suit et calcule toutes les évaluations, puis génère un score composite pour chaque réponse, basé sur ces critères d'évaluation.
Qu'est-ce que la Fiabilité Inter-Juges (FIR) et Comment est-elle surveillée ?
La Fiabilité Inter-Juges (IRR)) est une mesure de la cohérence avec laquelle les Juges Certifiés appliquent les critères de notation Avant aux réponses des étudiants. Avant s'efforce de maintenir un haut niveau de Fiabilité Inter-Juges grâce à une comparaison constante des notations et à la fourniture d'une formation continue si nécessaire. Plus précisément, la Fiabilité Inter-Juges est suivie dans le système car 20% de toutes les réponses sont envoyées à un second juge pour une seconde notation à l'aveugle de cette réponse. Cela signifie que dans chaque file d'attente de 25 réponses (le nombre de réponses d'étudiants notées en un lot) il y a 5 réponses qui ont été précédemment notées par un autre Juge Certifié. Le système surveille ensuite comment un second Juge Certifié note ces réponses. Si une différence de niveaux attribués entre le premier et le second Juge Certifié est constatée, le RC envoie cette réponse à un troisième Juge Certifié qui arbitre la note. Les Gestionnaires de Juges sont capables de voir quelles réponses ont reçu deux notes et, plus important encore, ces réponses qui ont reçu trois notes et peuvent suivre comment chaque réponse a été notée par les trois différents juges. Les Gestionnaires de Juges peuvent voir les tendances dans la notation et diriger une formation juste-à-temps à tout Juge Certifié ayant besoin d'une reformation. Les Gestionnaires de Juges recueillent ensuite et utilisent ces réponses "difficiles" pour les sessions de formation.
Comment Avant mesure-t-il la fiabilité inter-juges (IRR) ?
Avant utilise une rubrique à deux critères pour attribuer des scores aux réponses orales et écrites. Les deux critères, comme indiqué ci-dessus, sont le Type de Texte (quantité de langue) et la Précision (compréhensibilité). Pour nos besoins, nous accordons une pondération plus importante au critère du Type de Texte pour les niveaux 1-6 (Débutant(e)-Low à Intermediate-High) puis une pondération plus équilibrée pour les niveaux 7 et 8 (Advanced-Low et Mid). Lorsque les Évaluateurs Certifiés évaluent les réponses orales et écrites des étudiants, ils déterminent d'abord le score du type de texte avec les sélections possibles suivantes :
- Non-Évaluable (0)
- Mots (1)
- Phrases (2)
- Phrases Simples (3)
- Chaînes de Phrases (4)
- Phrases Connectées (5)
- Paragraphe Émergent (6)
- Structure de Paragraphe (7)
- Paragraphe Étendu (8)
Une fois le critère du Type de Texte déterminé, le RC dirige l'évaluateur pour déterminer l'Exactitude/Compréhensibilité de la réponse avec les choix suivants pour le score spécifique du Type de Texte : en dessous de la moyenne, moyenne ou au-dessus de la moyenne. Le RC combine les scores de ces deux critères pour déterminer le score/niveau final pour cette réponse. Avant peut alors examiner l'accord des Évaluateurs Certifiés dans chaque langue pour déterminer le pourcentage IRR pour n'importe quelle langue sur n'importe quelle période de temps.
Comment Avant Mesure-t-il la Précision de l'Évaluation et Surveille-t-il le Dérive?
Tout aussi important que la Fiabilité Inter-Évaluateurs est le concept de Précision. L'idéal est que tous les évaluateurs soient d'accord pour produire une haute FIE, mais s'il y a un écart par rapport aux normes (évaluer les réponses trop haut ou trop bas), nous devons être informés de cette situation également. Pour faire face à cet écart, Avant injecte des éléments d'ancrage (passages qui ont été sélectionnés et pré-évalués par chaque Gestionnaire d'Évaluateurs de langue) dans les files d'évaluation, puis les Gestionnaires d'Évaluateurs surveillent comment les Évaluateurs Certifiés évaluent ces réponses spéciales. Tout comme les réponses FIE, celles-ci sont livrées aux évaluateurs de manière aveugle afin que les évaluateurs ne puissent pas identifier ces réponses de quelque manière que ce soit. Les Gestionnaires d'Évaluateurs peuvent alors voir si les évaluateurs s'écartent des normes. Sur la base de ces informations, les Gestionnaires d'Évaluateurs peuvent corriger tout écart par le biais de sessions de reformation et de soutien. Ceci est une caractéristique importante de notre Système de Connexion des Évaluateurs et peut être réglé pour livrer des éléments d'ancrage à des intervalles prédéterminés.
Comment Les Niveaux Finaux Pour Chaque Compétence Sont-Ils Dérivés Et Rapportés ?
Le test Avant STAMP fournit trois prompts de parole et trois prompts d'écriture à chaque candidat qui se voit attribuer ce domaine ou cette phase du test, c'est-à-dire, parler ou écrire. Le score final rapporté est calculé sur la base des deux scores les plus élevés sur les trois échantillons. Ainsi, le niveau final attribué prend en compte chaque réponse qui a été soumise et notée par les évaluateurs certifiés Avant et détermine le niveau que le candidat a pu maintenir à travers les trois tâches.
Par exemple :
Un candidat qui reçoit un 3 (Débutant(e)-High) pour sa première réponse, un 4 (Intermédiaire-Bas) pour sa deuxième réponse, et un 3 (Débutant(e)-High) pour sa troisième réponse recevra un score final de 3 (Débutant(e)-High) pour ce domaine. Cela indique qu'au MINIMUM l'étudiant a été capable de maintenir le niveau 3 (Débutant(e)-High) de compétence. Cependant, dans ce cas, une réponse a été évaluée à un niveau supérieur et donc une barre bleue est incluse dans le rapport pour indiquer que cet étudiant pourrait approcher du niveau supérieur et encourage l'enseignant à regarder cette réponse spécifique. Parce que le score final ou le niveau est dérivé du résultat des trois réponses, le système est capable de gérer toute réponse unique qui aurait pu être notée de manière inexacte ou à laquelle le candidat n'aurait peut-être pas été capable de répondre et de maintenir un rapport précis pour la capacité globale du candidat pour chaque domaine.
Ainsi, le processus d'utilisation des deux scores les plus élevés en expression orale ou écrite pour attribuer le niveau final de l'élève en expression orale ou écrite est utilisé pour minimiser la déclaration de résultats faussement négatifs ou faussement positifs pour le score global du domaine.