O que é Escala de Pontuação?
Quando os desenvolvedores de testes relatam as pontuações dos testes para os usuários finais (administradores escolares, professores, pais, os próprios candidatos ou outros possíveis usuários da pontuação), é importante que o significado das pontuações numéricas relatadas seja claro e fácil de usar. Se não, qual é o ponto das pontuações dos testes?
As notas de teste podem vir em muitos sabores diferentes.
Por exemplo, as pontuações em alguns testes são relatadas em termos de número correto ou porcentagem correta. Tal relatório é útil em casos em que cada participante do teste faz exatamente o mesmo teste, como no caso de testes lineares de formato fixo.
As avaliações Avant STAMP (STAndards-based Measurement of Proficiency), no entanto, fazem uso de abordagens mais modernas de psicometria e desenvolvimento de testes e não são testes lineares. Todos os testes de Leitura e Audição do STAMP são adaptativos ao computador, o que significa que a dificuldade do teste se adapta em tempo real à habilidade linguística estimada de cada candidato. Isso resulta em uma medição mais precisa da proficiência linguística dos candidatos e proporciona uma experiência mais agradável do que normalmente é o caso com um teste linear, uma vez que os candidatos não se deparam com um grande número de itens substancialmente abaixo ou acima de seu nível real de proficiência. Essa poderosa abordagem de montagem e implantação de testes só é possível por meio de uma técnica psicométrica chamada teoria de resposta ao item (IRT). Na IRT, cada item de teste (também conhecido como questão de teste) está associado ao seu próprio nível de dificuldade medido cientificamente. No caso do STAMP, o nível de dificuldade de cada item no teste é calculado por meio de uma análise IRT das respostas de centenas (e em muitos casos, milhares) de candidatos representativos. Isso nos permite calibrar os itens em termos de sua dificuldade e garantir que apenas os melhores itens sejam usados em cada teste STAMP.
O algoritmo de pontuação STAMP também faz uso dessas informações de dificuldade do item para calcular o nível final STAMP de cada participante do teste, com base em quais itens eles tentaram durante o teste, sua resposta a cada item e a habilidade que os participantes do teste precisam demonstrar para pontuar em cada um dos níveis STAMP (este último é determinado através de um processo chamado definição de padrão). Portanto, dada a natureza adaptativa das avaliações STAMP e dado que cada item tem um certo nível estatístico de dificuldade associado a ele, relatar as pontuações STAMP em termos de número correto (por exemplo, 23 de 30) ou porcentagem correta (76,6%) não é nem significativo nem apropriado.
Como discutiremos em breve, a teoria de resposta ao item (IRT), que forma a base estatística do desenvolvimento e pontuação dos testes Avant STAMP, usa uma escala de pontuação que não é muito intuitiva para os usuários finais dos testes STAMP. Por exemplo, a escala IRT tem valores negativos e positivos. Informar a um candidato em seu relatório de pontuação que sua proficiência em leitura no teste alemão STAMP 4S é -1.4 não seria útil e violaria a exigência de pontuações claras e fáceis de usar discutidas acima. Por esse motivo, é necessário que os valores de pontuação STAMP baseados em IRT sejam convertidos para uma escala de pontuação mais significativa e facilmente interpretável. Uma escala é basicamente um espectro de valores de medição potenciais e os desenvolvedores de testes têm que decidir sobre os pontos de referência da escala de pontuação antes que as pontuações possam ser relatadas.
Entendendo os Pontos de Referência de uma Escala
Três escalas com as quais os leitores provavelmente estão familiarizados são as escalas de temperatura Celsius, Fahrenheit e Kelvin. Embora todas as três sejam escalas de temperatura, seus pontos de referência e interpretação diferem substancialmente. O mesmo pode se aplicar a diferentes escalas usadas para relatar pontuações de proficiência em idiomas.
Na escala Celsius, um grau de 0 ℃ indica o ponto de medição no qual a água congela ao nível do mar, enquanto o valor mínimo possível de medição na escala Celsius é -273.15 ℃, que é o ponto no qual não há atividade molecular alguma em uma substância. Na escala Fahrenheit, no entanto, o ponto de medição no qual a água congela ao nível do mar é 32 graus F, não 0 graus F. Na escala Fahrenheit, - 459.67 F indica o valor mínimo possível de medição, quando não há atividade molecular em uma substância. Como podemos ver, nem na escala Celsius nem na Fahrenheit, um zero realmente significa a ausência completa de algo. É simplesmente um ponto de referência que só faz sentido em relação à escala completa e seus possíveis valores atingíveis.
Para as escalas de temperatura, a única escala que tem um verdadeiro ponto zero é a escala Kelvin. Na escala Kelvin, o ponto de medição 0 K significa na verdade nenhuma atividade molecular, com o zero marcando o valor mínimo possível na escala Kelvin. Na escala Kelvin, portanto, valores negativos não são possíveis, diferentemente das escalas Celsius e Fahrenheit (e como veremos em breve, a escala IRT). Todas as três escalas de temperatura não têm um limite real para seus valores máximos, já que não há um limite conhecido para o quão quente algo pode ser.
Agora, podemos realmente dizer que uma escala é melhor que a outra? Na verdade não. Todas as três escalas são perfeitamente válidas por si só e são amplamente utilizadas em diferentes contextos, com certas escalas sendo consideradas mais apropriadas pelos usuários dependendo de contextos específicos. Uma coisa que une essas três escalas, no entanto, e que as torna perfeitamente adequadas para medição precisa, é o fato de que a distância entre quaisquer dois pontos de medição na escala indica a mesma diferença de temperatura. Em outras palavras, a diferença na atividade molecular entre 35 ℃ e 37 ℃ é exatamente a mesma que entre 89 ℃ e 91 ℃. Esta é uma característica que nós da Avant acreditamos estar no cerne de uma boa medição, e certamente uma que usamos para nossas pontuações STAMP.
Apesar da utilidade de olhar para as três escalas de temperatura familiares acima e ver quão apropriadas elas são em seus contextos dados para a medição de um constructo como a temperatura, é importante entender que algumas das características que possuem as tornam inadequadas para a medição de um constructo como a proficiência em idiomas. Por exemplo, seria praticamente impossível explicar o que significa uma proficiência em idioma negativa ou como alguém pode ter zero habilidade em um idioma; até mesmo uma pessoa que nunca estudou ou esteve em contato com um determinado idioma anteriormente terá algum (embora mínimo) conhecimento de pelo menos palavras emprestadas nesse idioma. Nenhum teste de proficiência em idiomas pode afirmar que alguém tem zero de proficiência em idiomas, pois seria impossível para um determinado teste avaliar todos os possíveis cenários em que uma pessoa pode demonstrar algum, mesmo que muito básico, entendimento de uma palavra ou frase no idioma. Todos os testes de idiomas são limitados pelos itens presentes no teste e pelo que eles são capazes de medir, o que significa que os testes de idiomas podem não ter um ponto zero de medição, mas podem ter um ponto mínimo de medição, representando o ponto abaixo do qual o teste é incapaz de fazer qualquer afirmação. O mesmo se aplica ao ponto máximo de referência em um teste; não importa quantos itens um teste contenha, ele nunca será capaz de medir toda a proficiência em idiomas de um indivíduo. Como tal, uma escala válida para um teste de proficiência em idiomas como os testes STAMP terá um ponto de referência mínimo (usado para os candidatos que erram todos os itens do teste que viram), nenhum ponto de referência zero e terá um ponto de referência máximo (usado para os candidatos que respondem corretamente a todos os itens do teste que viram).
Medição IRT e as Pontuações STAMP
Como mencionado acima, é importante que intervalos iguais em uma escala usada para relatar pontuações em um teste de proficiência em idiomas indiquem a mesma diferença na proficiência em idiomas. Todos os níveis do teste STAMP (níveis 1 - 9) estão alinhados aos níveis padrão de proficiência em idiomas dos EUA (Novice Low até Advanced High), como pode ser visto abaixo:

Apesar do alinhamento dos níveis do STAMP a esses níveis de proficiência e apesar da utilidade dos níveis de proficiência para indicar o nível geral de habilidade de um candidato no idioma, os próprios níveis de padrões não se conformam ao tipo de pontuações escaladas numéricas que estamos procurando. Em primeiro lugar, o significado da diferença de intervalo nos padrões de proficiência nacionais (e, portanto, STAMP) níveis não é o mesmo independentemente do ponto na escala. Por exemplo, é necessário um maior nível de habilidade no idioma para passar de Intermediário Alto (nível 6 do STAMP) para Avançado Baixo (nível 7 do STAMP) do que para passar de Iniciante Alto (nível 3 do STAMP) para Intermediário Baixo (nível 4 do STAMP). Por essa razão, os níveis de proficiência são representados como uma pirâmide invertida, e não como um quadrado ou retângulo. Em segundo lugar, apesar da utilidade dos níveis de proficiência para indicar onde um determinado aprendiz de idioma se encontra em termos de sua proficiência no idioma, alunos com a mesma pontuação no nível STAMP podem realmente ter habilidades ligeiramente diferentes no idioma e podem ter respondido a um número diferente de itens corretamente no teste STAMP, mesmo que tenham visto exatamente os mesmos itens através do algoritmo adaptativo STAMP. Portanto, apesar da importante utilidade dos níveis STAMP e dos padrões de proficiência nacionais para entender a proficiência no idioma dos candidatos, esses níveis não são tão detalhados quanto alguns usuários finais de nossas pontuações de teste gostariam que fossem.
Por exemplo, uma escola pode ter apenas dez vagas em uma seção especial de honra de Leitura em Francês. E se quatorze dos estudantes atingiram um nível 9 no STAMP em Leitura? Como a escola pode escolher 10 entre os 14 alunos para a turma de honra? Escolher dez aleatoriamente pode ser considerado uma solução aceitável, mas nós da Avant Assessment podemos fornecer uma maneira melhor e mais precisa de ajudar neste caso. Como mencionado acima, a Avant Assessment faz uso de uma técnica de medição estatística chamada Teoria de Resposta ao Item para calibrar todos os itens nas seções de Leitura e Audição dos testes (adaptativos) STAMP, para alinhar o número de perguntas que um candidato acerta em seu caminho específico de teste aos níveis STAMP e, portanto, aos níveis de padrões de proficiência nacionais aos quais eles estão alinhados, e finalmente, produzir pontuações escalonadas que fornecem aos usuários da pontuação uma medida mais detalhada da habilidade linguística de cada candidato do que seria possível se apenas os níveis STAMP fossem relatados.
Escalando as Pontuações STAMP
Uma vez que todos os itens em uma seção específica de um teste STAMP foram calibrados através do IRT, somos capazes de atribuir uma estimativa de habilidade IRT (também referida como theta na terminologia IRT) a cada aluno com base nos itens que acertaram ou erraram no caminho específico que seguiram em cada uma das seções de Leitura e Audição de seu teste STAMP. Uma vez que temos esse valor, somos então capazes de escalar esse valor (daí o termo, escala de pontuação) para que possamos relatar pontuações mais detalhadas, a fim de complementar o relatório do nível STAMP alcançado. Ao escalar as pontuações IRT, somos então capazes de garantir que todas as pontuações escalonadas sejam positivas (sem valores negativos) e que os usuários da pontuação, como a hipotética escola francesa acima, sejam capazes de focar mais na proficiência dos alunos, mesmo que os alunos tenham pontuado no mesmo nível STAMP.
Cada uma das seções de Leitura e Audição de cada teste STAMP deve ser escalonada separadamente. Portanto, as pontuações escalonadas para a Leitura em Espanhol não podem ser comparadas diretamente com as pontuações escalonadas para a Audição em Espanhol, ou com as pontuações escalonadas para a Leitura em Chinês. Em outras palavras, as pontuações escalonadas do STAMP são específicas para a língua e a seção.
Nós escalamos as pontuações IRT nas seções de Leitura ou Audição de cada um de nossos testes através de uma simples transformação linear, vista na fórmula abaixo:

A escalação acima garante que todas as pontuações escalonadas possíveis para uma determinada seção de um teste STAMP são números positivos sem decimais, que são muito mais intuitivos do que pontuações variando de -4 a +4, que são mais típicas do IRT. A escala linear vista na fórmula acima também garante que a distância entre quaisquer duas pontuações escalonadas indica a mesma diferença de habilidade em qualquer ponto da escala.
Interpretação das Pontuações Escaladas
Imagine que temos os seguintes alunos, que fizeram a seção de Audição do teste japonês STAMP 4S:
- Aluno A pontuação ajustada: 589
- Estudante B pontuação ajustada: 612
- Aluno C pontuação ajustada: 677
- Estudante D pontuação ajustada: 700
A diferença na proficiência de escuta em japonês entre o Aluno A e o Aluno B em japonês (23 pontos na escala) é a mesma que a diferença na proficiência de escuta em japonês entre o Aluno C e o Aluno D (23 pontos). Se dois alunos alcançaram o mesmo nível STAMP em Escuta em Japonês (por exemplo, nível STAMP 4 - Intermediário Baixo), mas um deles teve uma pontuação na escala que é 20 pontos acima do outro, temos fortes evidências para acreditar que o aluno com a pontuação mais alta na escala é mais proficiente do que o aluno com a pontuação mais baixa na escala. Quanto maior a diferença entre suas pontuações na escala, mais confiantes podemos estar de que a diferença é significativa e de que os dois alunos de fato não são igualmente proficientes. As pontuações na escala também podem ser úteis em casos onde um aluno pode parecer não estar progredindo após um ano de estudo e estar "preso" no mesmo nível de proficiência. Uma comparação entre a pontuação na escala deles um ano atrás e a pontuação na escala da administração atual pode mostrar pequenos ganhos incrementais em sua proficiência, mesmo que tais incrementos não tenham sido suficientes para movê-los para o próximo nível STAMP.
Uma coisa deve ser mantida em mente, no entanto: todas as avaliações têm uma certa margem de erro de medição associada às suas pontuações. Por exemplo, o erro padrão de medição (SEM) relatado pela ETS para a seção de Listening do TOEFL iBT, que usa uma escala de pontuação variando de 0 a 30, é de 2,38 pontos escalonados (Educational Testing Services, 2018). Por sua vez, para as pontuações da seção SAT, com uma faixa de pontuação de 200 a 800, o erro padrão de medição é de 30 pontos (College Board, 2018). Como não é viável avaliar cada aluno em muitos dias diferentes e em centenas de itens de teste, cada resultado de teste é um instantâneo do nível que um determinado candidato conseguiu manter no dia específico em que fez o teste e nos itens específicos que respondeu durante a administração do teste. Naturalmente, um teste como o STAMP 4S, cujas seções de Reading e Listening são adaptativas por computador, que inclui um grande número de itens visando o nível estimado de cada candidato em tempo real, e que é desenvolvido de acordo com padrões qualitativos e quantitativos rigorosos, tende a ter um erro de medição menor e ser mais eficaz e eficiente do que testes lineares mais curtos, não adaptativos, que não seguem o mesmo rigor (Schultz, Whitney, & Zickar, 2014). O erro padrão médio de medição para as pontuações escalonadas nas seções de Reading e Listening dos testes STAMP é de 10 pontos de pontuação escalonada. Essa estatística é facilmente derivada do tipo de software IRT que usamos na Avant.
O erro de medição associado às pontuações escalonadas do STAMP é bastante pequeno, dado o rigor psicométrico e a natureza adaptativa de nossos testes. Embora aconselhemos que as análises de pontuação de teste sejam realizadas principalmente com base no nível STAMP alcançado, nós da Avant sugerimos que as pontuações escalonadas possam ser consideradas em casos muito específicos quando decisões de maior importância devem ser tomadas com base nas pontuações do teste STAMP, como quando as pontuações do STAMP são usadas para conceder Selos Estaduais de Biliteracia (SSB) ou para conceder crédito por exame (CBE). Em tais casos de maior importância, se a pontuação escalonada de um candidato em Leitura ou Audição acontecer de estar dentro de 10 pontos ou menos da pontuação escalonada mínima que poderia qualificá-los para o SSB ou CBE, a posição da Avant é que uma escola ou distrito pode, a seu critério, fazer com que tais candidatos refaçam o teste STAMP (dada a sua natureza adaptativa, há uma boa chance de que os candidatos ao teste não vejam exatamente os mesmos itens que na administração anterior). Se nesta segunda administração a pontuação escalonada do candidato levar a um nível STAMP que atenda aos requisitos para o SSB ou CBE, a posição da Avant é que as pontuações desta segunda administração possam ser usadas no lugar das pontuações da primeira administração.
Os dois cenários discutidos acima são cenários de maior risco nos quais a consideração da pequena margem de erro do teste pode ser justificada (lembre-se de que todos os testes têm uma margem de erro).
Recomendamos que seja geralmente apropriado usar as pontuações escalonadas do STAMP para usos tradicionais, como para análise anual contínua ou crescimento dos alunos e para avaliação de programas.
Para ver as tabelas de pontuações escalonadas atualmente disponíveis para as avaliações STAMP, clique aqui.
Referências:
College Board (2018). SAT: Compreendendo as Pontuações. Recuperado de https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
Educational Testing Services (2018). Confiabilidade e Comparabilidade das Pontuações do TOEFL iBT. TOEFL Research Insight Series (vol. 3). Retirado de www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria da Medição em ação. Estudos de caso e exercícios (2ª ed.). Londres/Nova York: Routledge. College Board (2018). SAT: Entendendo as Pontuações. Recuperado de https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
Educational Testing Services (2018). Confiabilidade e Comparabilidade das Pontuações do TOEFL iBT. Série de Insights de Pesquisa do TOEFL (vol. 3). Recuperado de www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria da Medição em ação. Estudos de caso e exercícios (2ª ed.). Londres/Nova York: Routledge.