Wer bewertet die STAMP Tests?
Die menschlich bewerteten Antworten im Avant STAMP, PLACE, Arabischen Sprachkompetenztest (APT) und den Spanischen Herkunftssprachtests werden von zertifizierten Avant-Bewertern bewertet, die Sprachlehrer/Sprecher sind und die folgenden Mindestanforderungen erfüllen:
- SPRACHKENNTNISSE: Bewerter müssen über fortgeschrittene oder höhere Sprachkenntnisse verfügen (festgestellt durch ein Telefoninterview oder einen Testergebnis von einer anerkannten Bewertung, d.h., STAMP4S, OPI,ILR Interview, MOPI oder Praxis/Staatliche Lehrerzertifizierung.)
- BILDUNG: Bewerter müssen einen Bachelor-Abschluss oder höher haben
- SCHULUNG & ZERTIFIZIERUNG: Bewerter müssen das sprachspezifische Avant Bewerter Schulungsprogramm absolvieren und 90% Übereinstimmung in der Zertifizierungsbewertung erzielen.
- VERFÜGBARKEIT: Bewerter müssen verfügbar sein, um eine bestimmte Anzahl von Elementen (Schülerantworten) jede Woche zu bewerten (festgelegt vom spezifischen Sprachbewertungsmanager und Bewerter)
Wie werden zertifizierte Avant Bewerter geschult?
Alle Bewerter müssen das Avant Bewerter Trainingsprogramm absolvieren und eine Zertifizierungsprüfung bestehen, bevor sie berechtigt sind, Schülerantworten zu bewerten. Der Schulungsprozess umfasst fünf Schritte und dauert in der Regel etwa 11-13 Stunden individuelle Arbeitszeit und etwa 2-3 Stunden mit einem Rater Training Manager, um abgeschlossen zu werden.
- ACADEMIC PREPARATION: Rater candidates study Avant Rater Training materials that explain the proficiency levels based on US national proficiency standards and ILR Proficiency Descriptors and learn how Avant applies these levels to test-taker responses. The goal of this step is to orient the rater candidates to the issues experienced in rating constructed response items (speaking and writing) and outline the range of scores that Avant’s system can assign to test-taker responses. Step 1 is an independent study phase with an expected time commitment of 3-5 hours.
- GEFÜHRTE ÜBERPRÜFUNG UND EINFÜHRUNG IN DAS RATER-VERBINDUNGSSYSTEM (RC): Der Rater-Kandidat trifft sich mit seinem zugewiesenen Rater-Trainingsmanager, um die Schlüsselelemente der Schulungsmaterialien zu besprechen und zu klären, einschließlich der Kompetenzstufen und der Details, die zur Identifizierung der verschiedenen Stufen verwendet werden. Der Rater-Trainingsmanager unterstützt dann den potenziellen Rater beim Zugriff auf Avants Online-Rater-Verbindungssoftware (siehe Schritt 3) und führt ihn durch mehrere Antworten, indem er zeigt, wie das Rater-Verbindungssystem verwendet wird. Schritt 2 wird in der Regel als virtuelles Treffen zwischen dem Rater-Kandidaten und dem Rater-Trainingsmanager durchgeführt, wobei eine erwartete Zeitverpflichtung von 2-3 Stunden besteht.
- ÜBEN SIE MIT DEM RATER-VERBINDUNGSSYSTEM (RC): Avants RC ermöglicht es dem Rater-Kandidaten, ausgewählte Trainings-/Ankerantworten zu bewerten und sofortiges Feedback zu seiner Bewertung jeder Antwort zu erhalten. Der Zweck dieser Phase des Trainingsprozesses besteht darin, den Rater-Kandidaten vielen Testteilnehmer-Antworten auszusetzen, die zuvor von Avant Master Ratern bewertet wurden. Jede Trainingsantwort enthält eine detaillierte Anmerkung oder Erklärung, warum der Artikel so bewertet wurde, wie er es war. Dieser Prozess ermöglicht es dem Rater-Kandidaten, eine Vielzahl von Antworten auf allen Ebenen mit sofortigem Feedback zu bewerten, um die Bewertungskriterien zu verinnerlichen und anzuwenden. Schritt 3 ist eine unabhängige Online-Übungssitzung mit einer erwarteten Zeitverpflichtung von 4-5 Stunden oder länger, falls notwendig, um die Übungsbanken der Antworten abzuschließen.
- GEFÜHRTE ANALYSE DER BEWERTER-VERBINDUNGSPRAXIS: Sobald der Bewerter-Kandidat die Trainingsantworten im RC abgeschlossen hat, trifft sich der Kandidat mit seinem zugewiesenen Bewerter-Trainingsmanager, um Probleme zu besprechen und zu klären, die während der Übungsbewertungssitzung aufgetreten sind. Insbesondere werden Antworten, die nicht korrekt bewertet wurden, überprüft und Fragen zu Bewertungskriterien und Level-Beschreibungen und ihrer Anwendung auf Antworten beantwortet. Der Bewerter-Trainingsmanager kann sehen, mit welchen Kriterien der potenzielle Bewerter Schwierigkeiten hatte und kann schnell Bereiche identifizieren, die weitere Unterstützung oder Schulung benötigen. An diesem Punkt kann der Bewerter-Trainingsmanager entscheiden, ob der potenzielle Bewerter Schritt 3 des Avant Bewerter-Trainingsprogramms wiederholen oder zu Schritt 5 zur Zertifizierung wechseln soll. Schritt 4 wird in der Regel als virtuelles Treffen zwischen Bewerter-Kandidaten und dem Bewerter-Trainingsmanager durchgeführt, mit einer erwarteten Zeitverpflichtung von einer oder mehreren Stunden, abhängig von der Anzahl der Bereiche, die überprüft werden müssen.
- ZERTIFIZIERUNG: Der letzte Schritt im Avant Rater-Ausbildungsprogramm besteht darin, dass der Rater-Kandidat einen Zertifizierungstest besteht, indem er eine Übereinstimmung von 90% oder mehr bei der Bewertung mit den Avant Master Ratern erreicht. Um diesen Test abzuschließen, greift der Rater-Kandidat auf das Rater Connection System zu und bewertet eine Zertifizierungsbank von Antworten in einem Prozess, der die Erfahrung nachahmt, die sie haben werden, wenn sie Schülerantworten im Live-System bewerten. Die Zertifizierungsbank besteht aus Antworten, die zuvor von Avant Master Ratern bewertet wurden, jedoch ohne die während der Schulungssitzungen bereitgestellten Anmerkungen oder Kommentare. Am Ende des Zertifizierungstests wird der Rater-Kandidat über seine Punktzahl informiert. Der Rater-Ausbildungsmanager trifft sich dann mit dem Rater-Kandidaten, um Bewertungsprobleme zu identifizieren und ihn bei Bedarf in Schulungsaktivitäten einzubeziehen. Rater-Kandidaten, die eine Übereinstimmung von 90% oder mehr mit den Avant Master Ratern erreichen, werden als zertifizierte Avant Rater bezeichnet, die qualifiziert sind, aktive STAMP Testantworten zu bewerten.
- LIVE-BEWERTUNG: Nachdem der Bewerterkandidat alle Schulungselemente abgeschlossen und den Zertifizierungstest bestanden hat, erhält er Zugang zu Live-Antworten im Bewertungsverbindungssystem. Der neu zertifizierte Bewerter wird dann angewiesen, in das System zu gehen und eine Charge (25 Antworten) zu bewerten und ihren Bewertermanager zu informieren, wenn sie die Charge abgeschlossen haben. Der Bewertermanager geht dann auf die Admin-Seite, um jeden vom zertifizierten Bewerter bewerteten Artikel zu überprüfen, um die Genauigkeit der Bewertungen zu überprüfen. Wenn der Bewertermanager mit der Genauigkeit der Bewertung der Antworten durch den neu zertifizierten Bewerter zufrieden ist, kann der Bewerter weiter bewerten. Der Bewertermanager überwacht den neu zertifizierten Bewerter in den ersten Wochen der Bewertung weiterhin genau.
- Dieses Avant Rater-Programm wurde entwickelt und verfeinert, um den Anforderungen gerecht zu werden, hohe Qualitäts- und Genauigkeitsstandards bei allen Avant-Ratern zu etablieren. Spot-Training findet auch kontinuierlich statt, da Avant-sprachspezifische Rater-Manager täglich die Inter-Rater-Reliabilität und Genauigkeitsstatistiken überprüfen. Das STAMP Bewertungssystem ermöglicht eine ständige Überwachung von Bewertungstrends und alarmiert die Rater-Manager bei Bewertungsproblemen und Anomalien, so dass eine Just-in-Time-Nachschulung stattfinden kann.
Wie werden STAMP Tests bewertet?
Die Bewertung von Avant STAMP Testelementen durch Menschen erfolgt in der Online-Umgebung von Rater Connection. Die Lese- und Hörtestelemente (Multiple-Choice) werden vom Computer bewertet. Die konstruierten Antworten (Sprechen und Schreiben) werden von zertifizierten Avant Bewertern über eine webbasierte Schnittstelle bewertet. Speziell verwaltet das online, verteilte Bewertungssystem von Avant, das Rater Connection System, alle Schülerantworten und erleichtert die Bewertung, indem es Warteschlangen von 25 schriftlichen oder gesprochenen Antworten an zertifizierte Avant Bewerter verteilt, wenn sie sich in das System einloggen. Bewerter bewerten jede Antwort in einem Schritt-für-Schritt-Assistentenprozess und berücksichtigen dabei sorgfältig jedes der vier Bewertungselemente oder Kriterien.
Die vier Bewertungselemente für Avant Sprachkompetenztests
- Ist die Antwort bewertbar und aufgabenbezogen?
- Welcher Texttyp oder welche Menge an levelspezifischer Sprache ist erkennbar?
- Wie ist die Qualität des Textes hinsichtlich der allgemeinen Verständlichkeit?
- Wie genau ist insgesamt die Antwort?
Das Bewertungssystem verfolgt und berechnet alle Bewertungen und generiert dann eine zusammengesetzte Punktzahl für jede Antwort, basierend auf diesen Bewertungskriterien.
Was ist Inter-Rater-Reliabilität (IRR) und wie wird sie überwacht?
Inter-Rater Reliability (IRR) ist ein Maß dafür, wie konsistent zertifizierte Bewerter die Avant-Bewertungskriterien auf Schülerantworten anwenden. Avant bemüht sich, ein hohes Maß an Inter-Rater Reliability durch konsequente Vergleiche von Bewertungen und Bereitstellung von fortlaufender Schulung bei Bedarf aufrechtzuerhalten. Insbesondere wird die Inter-Rater Reliability im System verfolgt, da 20% aller Antworten an einen zweiten Bewerter zur blinden zweiten Bewertung dieser Antwort geliefert werden. Das bedeutet, dass in jeder Warteschlange von 25 Antworten (die Anzahl der von einem Batch bewerteten Schülerantworten) 5 Antworten vorhanden sind, die zuvor von einem anderen zertifizierten Bewerter bewertet wurden. Das System überwacht dann, wie ein zweiter zertifizierter Bewerter diese Antworten bewertet. Wenn es einen Unterschied in den zugewiesenen Stufen zwischen dem ersten und zweiten zertifizierten Bewerter gibt, sendet das RC diese Antwort an einen dritten zertifizierten Bewerter, der die Bewertung schlichtet. Bewerter-Manager können sehen, welche Antworten zwei Bewertungen erhalten haben und, noch wichtiger, welche Antworten drei Bewertungen erhalten haben und können nachverfolgen, wie jede Antwort von den drei verschiedenen Bewertern bewertet wurde. Bewerter-Manager können Trends in der Bewertung erkennen und eine just-in-time-Schulung an jeden zertifizierten Bewerter leiten, der eine erneute Schulung benötigt. Bewerter-Manager sammeln dann diese "herausfordernden" Antworten für Schulungssitzungen.
Wie misst Avant die Inter-Rater-Reliabilität (IRR)?
Avant verwendet eine Zwei-Kriterien-Rubrik, um gesprochenen und schriftlichen Antworten Punkte zuzuweisen. Die beiden Kriterien, wie oben angegeben, sind Textart (Menge der Sprache) und Genauigkeit (Verständlichkeit). Für unsere Zwecke legen wir ein höheres Gewicht auf das Kriterium Textart für die Stufen 1-6 (Anfänger-Niedrig bis Mittelstufe-Hoch) und dann eine ausgewogenere Gewichtung für die Stufen 7 und 8 (Fortgeschrittene-Niedrig und Mittel). Wenn zertifizierte Bewerter die mündlichen und schriftlichen Antworten der Schüler bewerten, bestimmen sie zunächst den Textart-Score mit den folgenden möglichen Auswahlmöglichkeiten:
- Nicht bewertbar (0)
- Wörter (1)
- Sätze (2)
- Einfache Sätze (3)
- Sätze in Reihenfolge (4)
- Verbundene Sätze (5)
- Aufkommender Absatz (6)
- Absatzstruktur (7)
- Erweiterter Absatz (8)
Sobald das Kriterium Texttyp bestimmt wurde, weist das RC den Bewerter an, die Genauigkeit/Verständlichkeit der Antwort mit den folgenden Auswahlmöglichkeiten für die spezifische Texttyp-Bewertung zu bestimmen: unterdurchschnittlich, durchschnittlich oder überdurchschnittlich. RC kombiniert die Bewertungen aus beiden Kriterien, um die endgültige Bewertung/Stufe für diese Antwort zu bestimmen. Avant kann dann die Übereinstimmung der zertifizierten Bewerter in jeder Sprache überprüfen, um den IRR-Prozentsatz für eine beliebige Sprache über einen beliebigen Zeitraum zu bestimmen.
Wie misst Avant die Bewertungsgenauigkeit und überwacht auf Drift?
Gleich wichtig wie die Inter-Rater-Reliabilität ist das Konstrukt der Genauigkeit. Das Ideal ist, dass alle Bewerter übereinstimmen und eine hohe IRR erzeugen, aber wenn es eine Abweichung von den Standards gibt (die Antworten werden zu hoch oder zu niedrig bewertet), müssen wir auch darüber Bescheid wissen. Um solche Abweichungen zu behandeln, fügt Avant Anker-Elemente (Passagen, die von jedem Sprachbewerter-Manager ausgewählt und vorgebewertet wurden) in die Bewertungswarteschlangen ein, dann überwachen die Bewerter-Manager, wie die zertifizierten Bewerter diese speziellen Antworten bewerten. Genau wie die IRR-Antworten werden diese den Bewertern auf eine Weise zugestellt, die es den Bewertern nicht ermöglicht, diese Antworten auf irgendeine Weise zu identifizieren. Die Bewerter-Manager können dann sehen, ob die Bewerter von den Standards abweichen. Basierend auf diesen Informationen können die Bewerter-Manager jede Abweichung durch Nachschulungen und Unterstützungssitzungen behandeln. Dies ist eine wichtige Funktion unseres Bewerter-Verbindungssystems und kann so eingestellt werden, dass es Anker-Elemente in vorbestimmten Intervallen liefert.
Wie Werden Die Endstufen Für Jede Fertigkeit Abgeleitet Und Berichtet?
Der Avant STAMP Test liefert jedem Prüfling, der diesem Bereich oder dieser Phase des Tests zugewiesen ist, also Sprechen oder Schreiben, drei Sprech- und drei Schreibaufgaben. Die endgültige gemeldete Punktzahl wird auf Basis der zwei höchsten Punktzahlen aus den drei Beispielen berechnet. Daher berücksichtigt das endgültig zugewiesene Level jede Antwort, die eingereicht und von Avant-zertifizierten Bewertern bewertet wurde, und bestimmt das Level, das der Prüfling bei den drei Aufgaben halten konnte.
Zum Beispiel:
Ein Prüfling, der für seine/ihre erste Antwort eine 3 (Anfänger-Hoch) erhält, für seine/ihre zweite Antwort eine 4 (Mittelstufe-Niedrig) und für seine/ihre dritte Antwort eine 3 (Anfänger-Hoch), erhält eine Endnote von 3 (Anfänger-Hoch) für diesen Bereich. Dies zeigt an, dass der Schüler MINDESTENS in der Lage war, das Niveau 3 (Anfänger-Hoch) zu halten. In diesem Fall wurde jedoch eine Antwort tatsächlich auf einem höheren Niveau bewertet und daher ist in dem Bericht ein blauer Balken enthalten, der darauf hinweist, dass dieser Schüler möglicherweise das nächsthöhere Niveau erreicht und den Lehrer ermutigt, diese spezifische Antwort anzuschauen. Da die Endnote oder das Niveau aus dem Ergebnis aller drei Antworten abgeleitet wird, kann das System jede einzelne Antwort, die möglicherweise falsch bewertet wurde oder auf die der Prüfling einfach nicht antworten konnte, verarbeiten und eine genaue Berichterstattung über die allgemeine Prüfungsfähigkeit des Prüflings für jeden Bereich aufrechterhalten.
Daher wird der Prozess, die beiden höchsten Sprech- oder Schreibwerte zu nutzen, um das endgültige Schüler-Sprech- oder Schreibniveau festzulegen, angewendet, um die Berichterstattung über entweder falsch-negative oder falsch-positive Bewertungen für die Gesamtdomänenbewertung zu minimieren.