누가 STAMP 테스트를 평가하나요?
Avant STAMP, PLACE, 아랍어 능력 테스트(APT), 그리고 스페인어 유산어 테스트에서의 인간이 평가하는 응답들은 다음의 최소 요구사항을 충족하는 언어 교육자/화자인 인증된 Avant 평가자들에 의해 평가됩니다:
- 언어 능력: 평가자는 고급 이상의 언어 능력을 유지해야 합니다(전화 인터뷰 또는 승인된 평가, 즉, STAMP4S, OPI, ILR 인터뷰, MOPI, 또는 Praxis/주 교사 자격증으로 판정)
- 교육: 평가자는 학사 학위 이상을 소지해야 합니다.
- 훈련 & 인증: 평가자는 언어별 Avant Rater Training Program을 완료하고 인증 평가에서 90%의 일치 점수를 받아야 합니다.
- 사용 가능성: 평가자는 매주 특정 언어 평가 관리자와 평가자가 결정한 특정 수의 항목(학생의 응답)을 평가할 수 있어야 합니다.
인증된 Avant 평가자들은 어떻게 훈련받나요?
모든 평가자는 학생들의 응답을 점수 매기기 전에 Avant Rater Training Program을 완료하고 인증 시험에 합격해야 합니다. 훈련 과정은 다섯 단계를 포함하며 일반적으로 개인 작업 시간으로 약 11-13시간, Rater Training Manager와 함께 약 2-3시간이 소요됩니다.
- 학문적 준비: 평가자 후보는 Avant 평가자 교육 자료를 공부하여 미국의 국가 수준의 능력 수준과 ILR 능력 수준 설명을 이해하고, Avant가 이러한 수준을 테스트 응답자의 반응에 어떻게 적용하는지 배웁니다. 이 단계의 목표는 평가자 후보를 구성 반응 항목(말하기와 쓰기)의 평가에서 경험하는 문제에 대해 안내하고, Avant의 시스템이 테스트 응답자의 반응에 부여할 수 있는 점수 범위를 개요화하는 것입니다. 1단계는 독립적인 학습 단계로, 예상 시간 투자는 3-5시간입니다.
- RC (RATER CONNECTION SYSTEM)에 대한 안내 리뷰 및 소개: 평가자 후보는 자신에게 배정된 Rater Training Manager와 만나서 훈련 자료의 핵심 요소, 능력 수준 및 다양한 수준을 식별하는 데 사용되는 세부 사항을 논의하고 명확히 합니다. 그 후 Rater Training Manager는 잠재적인 평가자가 Avant의 온라인 Rater Connection Software에 접속하는 데 도움을 주고 (Step 3 참조), 여러 응답을 통해 Rater Connection System을 사용하는 방법을 보여줍니다. Step 2는 보통 평가자 후보와 Rater Training Manager 사이의 가상 회의로 진행되며, 예상 시간 약속은 2-3시간입니다.
- RC (RATER CONNECTION SYSTEM)와 함께 연습하기: Avant의 RC는 평가자 후보가 선택한 훈련/앵커 응답을 점수 매기고 각 응답에 대한 즉시 피드백을 받을 수 있게 해줍니다. 이 훈련 과정의 목적은 평가자 후보에게 Avant Master Raters에 의해 이전에 점수가 매겨진 많은 테스트 응답자의 응답을 노출시키는 것입니다. 각 훈련 응답에는 항목이 그렇게 점수를 받은 이유에 대한 자세한 주석 또는 설명이 포함되어 있습니다. 이 과정은 평가자 후보가 모든 수준에서 다양한 응답을 즉시 피드백을 받아 평가하고, 점수 매기는 기준을 내면화하고 적용할 수 있게 해줍니다. 3단계는 독립적인 온라인 연습 세션으로, 응답의 연습 은행을 완료하기 위해 필요한 경우 4-5시간 또는 그 이상의 시간을 투자해야 할 것으로 예상됩니다.
- 평가자 연결 실습의 지도 분석: 평가자 후보가 RC에서의 교육 응답을 완료하면, 후보는 지정된 평가자 교육 매니저와 만나 실습 점수 부여 세션 중에 발생한 문제를 논의하고 명확히 합니다. 특히, 정확하게 점수가 매겨지지 않은 응답들이 검토되며, 점수 기준과 레벨 설명 및 그것들이 응답에 어떻게 적용되는지에 대한 질문에 답변이 제공됩니다. 평가자 교육 매니저는 잠재적인 평가자가 어떤 기준에서 어려움을 겪었는지 확인할 수 있으며, 추가 지원이나 교육이 필요한 영역을 빠르게 파악할 수 있습니다. 이 시점에서 평가자 교육 매니저는 잠재적인 평가자가 Avant 평가자 교육 프로그램의 3단계를 반복하거나 5단계로 이동하여 인증을 받기로 결정할 수 있습니다. 4단계는 일반적으로 평가자 후보와 평가자 교육 매니저 간의 가상 회의로 진행되며, 검토해야 할 영역의 수에 따라 한 시간 이상의 시간 투자가 예상됩니다.
- 인증: Avant 평가자 교육 프로그램의 마지막 단계는 평가자 후보가 Avant 마스터 평가자와 90% 이상의 일치도를 달성하여 인증 테스트에 합격하는 것입니다. 이 테스트를 완료하기 위해 평가자 후보는 Rater Connection System에 접속하고, 실제 시스템에서 학생들의 응답을 평가할 때와 동일한 경험을 재현하는 과정에서 인증 은행의 응답들을 평가합니다. 인증 은행은 Avant 마스터 평가자가 이전에 평가한 응답들로 구성되어 있지만, 교육 세션 동안 제공된 주석이나 코멘트는 포함되어 있지 않습니다. 인증 테스트가 종료되면 평가자 후보에게 점수가 알려집니다. 그 후 Rater Training Manager는 평가자 후보와 만나 평가 문제를 파악하고, 필요에 따라 재교육 활동에 참여시킵니다. Avant 마스터 평가자와 90% 이상의 일치도를 달성한 평가자 후보는, 활성화된 STAMP 테스트 응답을 평가할 자격이 있는 인증된 Avant 평가자로 지정됩니다.
- LIVE RATING: 평가자 후보가 모든 교육 요소를 완료하고 인증 테스트에 합격하면, Rater Connection System에서 실시간 응답에 접근할 수 있게 됩니다. 새로 인증받은 평가자는 시스템에 들어가서 한 묶음(25개의 응답)을 평가하고, 그들이 묶음을 완료했을 때 Rater Manager에게 알립니다. 그러면 Rater Manager는 Admin 사이트로 들어가서 인증받은 평가자가 점수를 매긴 각 항목을 검토하여 점수가 정확한지 확인합니다. Rater Manager가 새로 인증받은 평가자의 응답 평가의 정확성에 만족하면, 평가자는 평가를 계속할 수 있습니다. Rater Manager는 평가 시작 후 처음 몇 주 동안 새로 인증받은 평가자를 계속해서 면밀히 모니터링합니다.
- 이 Avant Rater 프로그램은 모든 Avant 평가자들에게 높은 수준의 품질과 정확성을 확립하는 요구사항을 충족시키기 위해 개발되고 연마되었습니다. Avant 언어별 Rater 관리자들이 매일 Inter-Rater 신뢰성과 정확성 통계를 검토함에 따라 지속적인 교육도 진행됩니다. STAMP 평가 시스템은 점수 트렌드의 지속적인 모니터링을 촉진하고, 점수 문제와 이상 현상에 대해 Rater 관리자에게 경고하여 적시에 재교육이 이루어질 수 있도록 합니다.
STAMP 테스트는 어떻게 평가되나요?
Avant STAMP 테스트 항목 응답에 대한 인간 평가는 Rater Connection의 온라인 환경에서 이루어집니다. 읽기와 듣기 테스트 항목(객관식)은 컴퓨터로 채점됩니다. 구성된 응답(말하기와 쓰기)은 웹 기반 인터페이스를 통해 인증된 Avant 평가자들에 의해 평가됩니다. 구체적으로, Avant의 온라인 분산 평가 시스템인 Rater Connection System은 모든 학생의 응답을 관리하고, 인증된 Avant 평가자들이 시스템에 로그인할 때 25개의 작성된 또는 말한 응답을 분배하여 채점을 용이하게 합니다. 평가자들은 단계별 마법사 과정에서 각 응답을 채점하며, 네 가지 채점 요소 또는 기준을 신중히 고려합니다.
Avant 언어 능력 테스트를 위한 네 가지 점수화 요소 ...
- 응답이 평가 가능하고 작업에 적합한가요?
- 어떤 텍스트 유형이나 레벨별 특정 언어의 양이 명확하게 나타나 있나요? ...
- 전반적인 이해도 측면에서 볼 때, 텍스트의 품질은 어떤가요?
- 응답의 전반적인 정확도는 무엇인가요?
점수 산정 시스템은 모든 평가를 추적하고 계산한 다음, 이 평가 기준에 기반하여 각 응답에 대한 복합 점수를 생성합니다. ...
Inter-Rater Reliability (IRR)란 무엇이며 어떻게 모니터링 되는가?
Inter-Rater Reliability (IRR))은 인증된 평가자들이 Avant의 채점 기준을 학생의 응답에 얼마나 일관되게 적용하는지를 측정하는 지표입니다. Avant는 평가의 일관성 비교와 필요에 따른 지속적인 훈련 제공을 통해 높은 수준의 Inter-Rater Reliability를 유지하려고 노력합니다. 구체적으로, Inter-Rater Reliability는 시스템에서 모든 응답의 20%가 두 번째 평가자에게 눈가림 두 번째 평가를 위해 전달되는 방식으로 추적됩니다. 이는 25개의 응답(한 묶음에 들어 있는 학생 응답의 수) 각 큐에 다른 인증된 평가자에 의해 이전에 평가된 5개의 응답이 있다는 것을 의미합니다. 그 후 시스템은 두 번째 인증된 평가자가 이러한 응답을 어떻게 평가하는지 모니터링합니다. 첫 번째와 두 번째 인증된 평가자 간에 할당된 레벨에 차이가 있으면, RC는 그 응답을 점수를 판정하는 세 번째 인증된 평가자에게 보냅니다. 평가 관리자는 두 번의 점수를 받은 응답과, 더 중요하게는 세 번의 점수를 받은 응답을 볼 수 있으며, 각 응답이 세 명의 다른 평가자에 의해 어떻게 평가되었는지 추적할 수 있습니다. 평가 관리자는 채점에서의 추세를 보고 필요한 인증된 평가자에게 적시에 훈련을 지시할 수 있습니다. 그 후 평가 관리자는 이러한 "도전적인" 응답을 수집하고 훈련 세션에 사용합니다.
Avant는 어떻게 Inter-Rater Reliability (IRR)를 측정하나요?
Avant는 말하고 쓴 응답에 점수를 부여하기 위해 두 가지 기준 척도를 사용합니다. 위에서 언급한 두 가지 기준은 텍스트 유형(언어의 양)과 정확성(이해 가능성)입니다. 우리의 목적에 따라, 우리는 1-6단계(초보-낮음부터 중급-높음)에 대해 텍스트 유형 기준에 더 높은 가중치를 두고, 그 다음 7과 8단계(고급-낮음 및 중간)에 대해 더 균형잡힌 가중치를 둡니다. 인증된 평가자들이 학생의 말하기와 쓰기 응답을 평가할 때, 그들은 먼저 다음과 같은 가능한 선택사항을 가지고 텍스트 유형 점수를 결정합니다:
- 비평가 가능하지 않음 (0)
- 단어 (1)
- 구문 (2)
- 간단한 문장들 (3)
- 문장의 문자열 (4) ...
- 연결된 문장들 (5)
- 등장하는 문단 (6)
- 문단 구조 (7)
- 확장된 문단 (8)
텍스트 유형 기준이 결정되면 RC는 특정 텍스트 유형 점수에 대한 다음 선택사항을 사용하여 응답의 정확성/이해도를 결정하도록 평가자에게 지시합니다: 평균 이하, 평균 또는 평균 이상. RC는 이 두 가지 기준에서 얻은 점수를 결합하여 해당 응답에 대한 최종 점수/레벨을 결정합니다. 그런 다음 Avant는 각 언어에서 인증된 평가자들의 동의를 검토하여 어떤 언어든지 어떤 기간 동안이든 IRR 퍼센트를 결정할 수 있습니다.
Avant는 어떻게 평가 정확성을 측정하고 Drift를 모니터링하나요?
Inter-Rater Reliability와 마찬가지로 중요한 구조는 Accuracy입니다. 이상적인 것은 모든 평가자들이 높은 IRR을 생성하면서 동의하는 것이지만, 표준에서 어떤 이탈(응답을 너무 높게 또는 낮게 점수 매기기)이 있다면, 우리는 그 상황을 알아야 합니다. 이탈을 처리하기 위해, Avant는 앵커 아이템(각 언어 Rater Manager에 의해 선택되고 사전에 점수가 매겨진 통과)을 평가 대기열에 삽입하고, 그 후 Rater Manager들은 인증된 Rater들이 이 특별한 응답을 어떻게 점수 매기는지 모니터링합니다. IRR 응답과 마찬가지로, 이들은 평가자들이 이 응답을 어떤 방식으로도 식별할 수 없도록 눈에 띄지 않게 전달됩니다. 그런 다음 Rater Manager들은 평가자들이 표준에서 이탈하는지 확인할 수 있습니다. 이 정보를 바탕으로, Rater Manager들은 재교육과 지원 세션을 통해 어떤 이탈을 처리할 수 있습니다. 이것은 우리의 Rater Connection System의 중요한 기능이며, 앵커 아이템을 미리 정해진 간격으로 전달하도록 설정할 수 있습니다.
각 스킬에 대한 최종 레벨은 어떻게 도출되고 보고되나요?
Avant STAMP 테스트는 말하기 또는 쓰기라는 해당 도메인 또는 테스트 단계가 할당된 각 시험 응시자에게 세 가지 말하기와 세 가지 쓰기 프롬프트를 제공합니다. 최종 보고된 점수는 세 가지 샘플 중 가장 높은 두 개의 점수를 기반으로 계산됩니다. 따라서 최종 할당 레벨은 Avant 인증 평가자에 의해 제출되고 점수가 매겨진 각 응답을 고려하고 시험 응시자가 세 가지 작업을 걸쳐 유지할 수 있었던 레벨을 결정합니다.
예를 들어:
첫 번째 응답에 대해 3 (초보-고급)을 받은 시험 응시자, 두 번째 응답에 대해 4 (중급-하급)를 받은 시험 응시자, 그리고 세 번째 응답에 대해 3 (초보-고급)을 받은 시험 응시자는 해당 도메인에 대한 최종 점수로 3 (초보-고급)을 받게 됩니다. 이는 학생이 최소한 3 (초보-고급) 수준을 유지할 수 있었다는 것을 나타냅니다. 그러나 이 경우에는 한 응답이 실제로 더 높은 수준에서 평가되었으므로, 이 학생이 다음 높은 수준에 접근하고 있을 수 있음을 나타내고, 교사가 그 특정 응답을 살펴보도록 권장하기 위해 보고서에 파란색 막대가 포함됩니다. 최종 점수 또는 수준은 세 가지 응답의 결과에서 파생되므로, 시스템은 어떤 단일 응답이 부정확하게 점수를 받았거나 시험 응시자가 응답하지 못했거나 정확한 보고를 유지하지 못했을 수 있는 경우를 처리할 수 있습니다. 이는 각 도메인에 대한 전체 시험 응시자 능력에 대한 보고를 위한 것입니다.
따라서, 최종 학생의 말하기 또는 쓰기 레벨을 지정하기 위해 두 가지 최고의 말하기 또는 쓰기 점수를 활용하는 과정이 사용되어 전체 도메인 점수에 대한 거짓 부정 또는 거짓 긍정 평가의 보고를 최소화하는데 사용됩니다. ...