Como Avaliamos as Respostas dos Testes Escritos e Orais

Quem Avalia os Testes STAMP?

As respostas avaliadas por humanos no Avant STAMP, PLACE, Teste de Proficiência em Árabe (APT), e nos testes de Língua Herança Espanhola são avaliadas por Avaliadores Certificados Avant que são educadores/falantes de línguas que atendem aos seguintes requisitos mínimos:

HABILIDADE LINGUÍSTICA: Os avaliadores devem manter um nível avançado ou superior de habilidades linguísticas (determinado por entrevista por telefone ou pontuação de teste de uma avaliação aprovada, ou seja, STAMP4S, OPI, Entrevista ILR, MOPI, ou certificação de professor Praxis/estadual.)
EDUCAÇÃO: Os avaliadores devem possuir um diploma de bacharel ou superior
TREINAMENTO & CERTIFICAÇÃO: Os avaliadores devem completar o Programa de Treinamento de Avaliadores Avant específico para o idioma e obter 90% de concordância na avaliação de certificação.
DISPONIBILIDADE: Os avaliadores devem estar disponíveis para pontuar um número especificado de itens (respostas dos alunos) a cada semana (determinado pelo Gerente de Avaliação de Idioma específico e pelo avaliador)

Como são treinados os Avaliadores Certificados Avant?

Todos os avaliadores devem concluir o Programa de Treinamento de Avaliadores Avant e passar em um teste de certificação antes de serem autorizados a avaliar as respostas dos alunos. O processo de treinamento inclui cinco etapas e geralmente leva cerca de 11-13 horas de trabalho individual e cerca de 2-3 horas com um Gerente de Treinamento de Avaliadores para ser concluído.

PREPARAÇÃO ACADÊMICA: Os candidatos a avaliadores estudam os materiais de treinamento da Avant Rater que explicam os níveis de proficiência baseados nos padrões nacionais de proficiência dos EUA e nos Descritores de Proficiência ILR e aprendem como a Avant aplica esses níveis às respostas dos candidatos ao teste. O objetivo desta etapa é orientar os candidatos a avaliadores sobre os problemas encontrados na avaliação de itens de resposta construída (falando e escrevendo) e delinear a gama de pontuações que o sistema da Avant pode atribuir às respostas dos candidatos ao teste. A Etapa 1 é uma fase de estudo independente com um compromisso de tempo esperado de 3-5 horas.
REVISÃO GUIADA E INTRODUÇÃO AO SISTEMA DE CONEXÃO DE AVALIADOR (RC): O candidato a avaliador se reúne com seu Gerente de Treinamento de Avaliadores designado para discutir e esclarecer os elementos-chave dos materiais de treinamento, incluindo níveis de proficiência e os detalhes que são usados para identificar os vários níveis. O Gerente de Treinamento de Avaliadores então auxilia o avaliador em potencial a acessar o Software de Conexão de Avaliadores online da Avant (veja o Passo 3) e os orienta através de várias respostas, mostrando como usar o Sistema de Conexão de Avaliador. O Passo 2 geralmente é conduzido como uma reunião virtual entre o candidato a avaliador e o Gerente de Treinamento de Avaliadores, com um compromisso de tempo esperado de 2-3 horas.
PRATIQUE COM O SISTEMA DE CONEXÃO COM AVALIADOR (RC): O RC da Avant permite que o candidato a avaliador pontue respostas de treinamento/âncora selecionadas e receba feedback imediato sobre sua avaliação de cada resposta. O objetivo desta etapa do processo de treinamento é expor o candidato a avaliador a muitas respostas de candidatos a teste que foram previamente pontuadas pelos Avaliadores Mestres da Avant. Cada resposta de treinamento inclui uma anotação detalhada ou explicação de por que o item foi pontuado da maneira que foi. Este processo permite que o candidato a avaliador avalie uma variedade de respostas em todos os níveis com feedback imediato para internalizar e aplicar os critérios de pontuação. A etapa 3 é uma sessão de prática online independente com um compromisso de tempo esperado de 4-5 horas ou mais, se necessário, para completar os bancos de prática de respostas.
ANÁLISE ORIENTADA DA PRÁTICA DE CONEXÃO DO AVALIADOR: Uma vez que o candidato a avaliador tenha completado as respostas de treinamento no RC, o candidato se encontra com seu Gerente de Treinamento de Avaliadores designado para discutir e esclarecer questões que surgiram durante a sessão de prática de pontuação. Especificamente, as respostas que não foram pontuadas corretamente são revisadas e perguntas sobre critérios de pontuação e descrições de nível e sua aplicação às respostas são respondidas. O Gerente de Treinamento de Avaliadores é capaz de ver quais critérios o avaliador em potencial teve dificuldades e pode identificar rapidamente áreas que precisam de mais suporte ou treinamento. Neste ponto, o Gerente de Treinamento de Avaliadores pode decidir se o Avaliador em potencial repete a Etapa 3 do Programa de Treinamento de Avaliadores da Avant ou passa para a Etapa 5 para certificação. A Etapa 4 geralmente é conduzida como uma reunião virtual entre os candidatos a avaliador e o Gerente de Treinamento de Avaliadores com um compromisso de tempo esperado de uma ou mais horas, dependendo do número de áreas que devem ser revisadas.
CERTIFICAÇÃO: A etapa final do Programa de Treinamento de Avaliadores da Avant consiste no candidato a avaliador passar em um teste de certificação obtendo 90% ou mais na pontuação com os Avaliadores Mestres da Avant. Para completar este teste, o candidato a avaliador acessa o Sistema de Conexão de Avaliadores e pontua um banco de respostas de certificação em um processo que replica a experiência que terão ao pontuar as respostas dos alunos no sistema ao vivo. O banco de certificação consiste em respostas previamente avaliadas pelos Avaliadores Mestres da Avant, mas sem as anotações ou comentários fornecidos durante as sessões de treinamento. Ao final do teste de certificação, o candidato a avaliador é notificado de sua pontuação. O Gerente de Treinamento de Avaliadores então se reúne com o candidato a avaliador para identificar problemas de avaliação, envolvendo-os em atividades de re-treinamento conforme necessário. Candidatos a avaliadores, que atingem 90% ou mais de concordância com os Avaliadores Mestres da Avant, são designados como Avaliadores Certificados da Avant, que estão qualificados para avaliar as respostas ativas do teste STAMP.
CLASSIFICAÇÃO AO VIVO: Após o candidato a avaliador ter completado todos os elementos de treinamento e passado no teste de certificação, ele recebe acesso às respostas ao vivo no Sistema de Conexão do Avaliador. O Avaliador Recém-Certificado é então instruído a entrar no sistema e avaliar um lote (25 respostas), informando ao seu Gerente de Avaliadores quando completar o lote. O Gerente de Avaliadores então acessa o site Admin para revisar cada item pontuado pelo Avaliador Certificado para verificar se as pontuações estão corretas. Quando o Gerente de Avaliadores está satisfeito com a precisão da classificação das respostas do Avaliador Recém-Certificado, o Avaliador pode continuar avaliando. O Gerente de Avaliadores continua a monitorar de perto o Avaliador Recém-Certificado durante as primeiras semanas de avaliação.
Este Programa de Avaliadores Avant foi desenvolvido e aprimorado para atender às demandas de estabelecimento de altos níveis de qualidade e precisão em todos os avaliadores Avant. Treinamentos pontuais também ocorrem de forma contínua, à medida que os Gerentes de Avaliadores específicos de idioma da Avant revisam a Confiabilidade e as estatísticas de precisão entre avaliadores todos os dias. O sistema de classificação STAMP facilita o monitoramento constante das tendências de pontuação e alerta os Gerentes de Avaliadores sobre problemas e anomalias de pontuação, para que possa ocorrer um retrinamento em tempo hábil.

Como São Avaliados os Testes STAMP?

A avaliação humana das respostas do teste Avant STAMP é realizada no ambiente online do Rater Connection. Os itens de teste de leitura e audição (múltipla escolha) são pontuados pelo computador. As respostas construídas (faladas e escritas) são avaliadas por Avaliadores Certificados Avant através de uma interface baseada na web. Especificamente, o sistema de avaliação distribuída online da Avant, o Rater Connection System, gerencia todas as respostas dos alunos e facilita a pontuação, distribuindo filas de 25 respostas escritas ou faladas para os Avaliadores Certificados Avant quando eles fazem login no sistema. Os avaliadores pontuam cada resposta em um processo passo a passo, considerando cuidadosamente cada um dos quatro elementos ou critérios de pontuação.

Os Quatro Elementos de Avaliação Para Testes de Proficiência em Linguagem Avant

A resposta é classificável e pertinente?
Que tipo de texto ou quantidade de linguagem específica de nível é evidente?
Qual é a qualidade do texto em termos de compreensibilidade geral?
Qual é a precisão geral da resposta?

O sistema de pontuação rastreia e calcula todas as avaliações e, em seguida, gera uma pontuação composta para cada resposta, com base nesses critérios de avaliação.

O Que É Confiabilidade Entre Avaliadores (IRR) E Como É Monitorada?

Confiabilidade Interavaliadores (IRR) é uma medida de quão consistentes os Avaliadores Certificados estão aplicando os critérios de pontuação da Avant nas respostas dos alunos. A Avant se esforça para manter um alto nível de Confiabilidade Interavaliadores através da comparação consistente de avaliações e da entrega de treinamento contínuo conforme necessário. Especificamente, a Confiabilidade Interavaliadores é rastreada no sistema, pois 20% de todas as respostas são entregues a um segundo avaliador para uma segunda avaliação cega dessa resposta. Isso significa que em cada fila de 25 respostas (o número de respostas de alunos avaliadas em um lote) existem 5 respostas que foram previamente avaliadas por outro Avaliador Certificado. O sistema então monitora como um segundo Avaliador Certificado pontua essas respostas. Se houver uma diferença de níveis atribuídos entre o primeiro e o segundo Avaliador Certificado, o RC envia essa resposta para um terceiro Avaliador Certificado que arbitra a pontuação. Os Gerentes de Avaliadores são capazes de ver quais respostas receberam duas pontuações e, mais importante, aquelas respostas que receberam três pontuações e podem rastrear como cada resposta foi avaliada entre os três diferentes avaliadores. Os Gerentes de Avaliadores podem ver tendências na pontuação e direcionar treinamento just-in-time para qualquer Avaliador Certificado que precise de reciclagem. Os Gerentes de Avaliadores então coletam e usam essas respostas "desafiadoras" para sessões de treinamento.

Como a Avant Mede a Confiabilidade Inter-Avaliadores (IRR)?

A Avant utiliza uma rubrica de dois critérios para atribuir notas às respostas faladas e escritas. Os dois critérios, como indicado acima, são Tipo de Texto (quantidade de linguagem) e Precisão (compreensibilidade). Para nossos propósitos, damos um peso maior ao critério Tipo de Texto para os níveis 1-6 (Iniciante-Baixo a Intermediário-Alto) e depois um peso mais equilibrado para os níveis 7 e 8 (Avançado-Baixo e Médio). À medida que os Avaliadores Certificados avaliam as respostas de fala e escrita dos alunos, eles primeiro determinam a pontuação do tipo de texto com as seguintes possíveis seleções:

Não Avaliável (0)
Palavras (1)
Frases (2)
Frases Simples (3)
Sequências de Frases (4)
Frases Conectadas (5)
Parágrafo Emergente (6)
Estrutura do Parágrafo (7)
Parágrafo Estendido (8)

Uma vez que o critério Tipo de Texto foi determinado, o RC direciona o avaliador para determinar a Precisão/Compreensibilidade da resposta com as seguintes escolhas para a pontuação específica do Tipo de Texto: abaixo da média, média ou acima da média. O RC combina as pontuações de ambos os critérios para determinar a pontuação/nível final para aquela resposta. A Avant então é capaz de revisar o acordo dos Avaliadores Certificados em cada idioma para determinar a porcentagem de IRR para qualquer idioma em qualquer período de tempo.

Como a Avant Mede a Precisão da Classificação e Monitora para Deriva?

Tão importante quanto a Confiabilidade Interavaliador é o constructo de Precisão. O ideal é que todos os avaliadores estejam de acordo, produzindo uma alta IRR, mas se houver qualquer desvio dos padrões (avaliando as respostas muito alto ou muito baixo), precisamos saber sobre essa situação também. Para lidar com o desvio, a Avant insere itens âncora (passagens que foram selecionadas e pré-avaliadas por cada Gerente de Avaliador de Idiomas) nas filas de avaliação, depois os Gerentes de Avaliadores monitoram como os Avaliadores Certificados pontuam essas respostas especiais. Assim como as respostas IRR, estas são entregues aos avaliadores de maneira cega, de modo que os avaliadores não conseguem identificar essas respostas de nenhuma maneira. Os Gerentes de Avaliadores podem então ver se os avaliadores estão se desviando dos padrões. Com base nessas informações, os Gerentes de Avaliadores podem abordar qualquer desvio por meio de sessões de re-treinamento e apoio. Esta é uma característica importante de nosso Sistema de Conexão de Avaliadores e pode ser configurado para entregar itens âncora em intervalos pré-determinados.

Como São Derivados e Reportados os Níveis Finais de Cada Habilidade?

O teste Avant STAMP fornece três prompts de fala e três de escrita para cada candidato que é designado para essa área ou fase do teste, ou seja, fala ou escrita. A pontuação final reportada é calculada com base nas duas maiores pontuações das três amostras. Assim, o nível final atribuído considera cada resposta que foi submetida e avaliada pelos Avaliadores Certificados Avant e determina o nível que o candidato conseguiu manter ao longo das três tarefas.

Por exemplo:

Um candidato que recebe um 3 (Novato-Alto) para sua primeira resposta, um 4 (Intermediário-Baixo) para sua segunda resposta, e um 3 (Novato-Alto) para sua terceira resposta receberá uma pontuação final de 3 (Novato-Alto) para aquele domínio. Isso indica que, no MÍNIMO, o estudante foi capaz de manter o nível 3 (Novato-Alto) de proficiência. No entanto, neste caso, uma resposta foi realmente classificada em um nível superior e, portanto, uma barra azul é incluída no relatório para indicar que este estudante pode estar se aproximando do próximo nível superior e encoraja o professor a olhar para essa resposta específica. Como a pontuação final ou nível é derivada do resultado de todas as três respostas, o sistema é capaz de lidar com qualquer resposta única que possa ter sido pontuada de forma imprecisa ou que o candidato simplesmente não tenha conseguido responder e manter um relatório preciso para a habilidade geral do candidato para cada domínio.

Assim, o processo de utilizar as duas maiores pontuações de fala ou escrita para atribuir o nível final de fala ou escrita do aluno é empregado para minimizar a notificação de classificações falsas-negativas ou falsas-positivas para a pontuação geral do domínio.