Что такое масштабирование оценок?

Когда разработчики тестов сообщают результаты тестов конечным пользователям (администраторам школ, учителям, родителям, самим участникам тестирования или другим потенциальным пользователям результатов), важно, чтобы значение числовых оценок было понятным и легким для использования. Если нет, то в чем смысл оценок тестов?

Результаты тестов могут быть самыми разными.

Например, результаты некоторых тестов отображаются в виде количества правильных ответов или процента правильных ответов. Такой способ отчетности полезен в случаях, когда каждый участник тестирования проходит абсолютно одинаковый тест, как в случае линейных, фиксированных форм тестов.

Ассессменты Avant STAMP (STAndards-based Measurement of Proficiency), однако, используют более современные психометрические и методы разработки тестов и не являются линейными тестами. Все тесты по чтению и аудированию STAMP адаптивны для компьютера, что означает, что сложность теста адаптируется в реальном времени к оцененному уровню знания языка каждого участника теста. Это приводит к более точному измерению уровня владения языком участниками теста и обеспечивает более приятный опыт для участников теста, чем обычно бывает при линейном тесте, поскольку участники теста не столкнутся с большим количеством вопросов, значительно ниже или выше их реального уровня владения языком. Этот мощный подход к сборке и развертыванию теста возможен только с помощью психометрической техники, называемой теорией ответа на элемент (IRT). В IRT каждый отдельный элемент теста (т.е. вопрос теста) связан со своим собственным научно измеренным уровнем сложности. В случае с STAMP, уровень сложности каждого элемента на тесте рассчитывается через анализ IRT ответов сотен (и во многих случаях, тысяч) представительных участников теста. Это позволяет нам калибровать элементы с точки зрения их сложности и убедиться, что в каждом тесте STAMP используются только самые лучшие элементы.

Алгоритм оценки STAMP также использует эту информацию о сложности элемента для расчета окончательного уровня STAMP каждого участника теста, основываясь на том, какие элементы они пытались выполнить во время теста, их ответ на каждый элемент и способность, которую участники теста должны продемонстрировать, чтобы получить оценку на каждом из уровней STAMP (последнее определяется через процесс, называемый стандартной установкой). Поэтому, учитывая адаптивную природу оценок STAMP и учитывая, что каждый элемент имеет определенный статистический уровень сложности, связанный с ним, отчетность оценок STAMP в терминах количества правильных ответов (например, 23 из 30) или процент правильных ответов (76,6%) не является ни значимой, ни соответствующей.

Как мы скоро обсудим, теория ответов на задания (IRT), которая лежит в основе статистического развития и оценки тестов Avant STAMP, использует шкалу оценок, которая не очень интуитивна для конечных пользователей тестов STAMP. Например, шкала IRT имеет как отрицательные, так и положительные значения. Сообщение участнику теста в их отчете об оценках, что их уровень чтения на немецком языке в тесте STAMP 4S составляет -1.4, не будет полезным и нарушит требование к четким и легко используемым оценкам, обсуждаемым выше. По этой причине необходимо, чтобы значения оценок STAMP, основанные на IRT, были преобразованы в более значимую и легко интерпретируемую шкалу оценок. Шкала в основном представляет собой спектр потенциальных значений измерений, и разработчики тестов должны определить опорные точки шкалы оценок, прежде чем оценки могут быть отрапортованы.

Понимание опорных точек масштаба

Три шкалы, с которыми читатели, вероятно, знакомы, - это шкалы температуры Цельсия, Фаренгейта и Кельвина. Несмотря на то что все три являются температурными шкалами, их точки отсчета и интерпретация значительно различаются. То же самое может применяться к различным шкалам, используемым для отчетности о баллах уровня владения языком.

В шкале Цельсия, 0 ℃ указывает на точку измерения, при которой вода замерзает на уровне моря, тогда как минимально возможное значение измерения на шкале Цельсия составляет -273.15 ℃, что является точкой, в которой в веществе вообще нет молекулярной активности. Однако на шкале Фаренгейта точка измерения, при которой вода замерзает на уровне моря, составляет 32 градуса F, не 0 градусов F. На шкале Фаренгейта, – 459.67 F указывает на минимально возможное значение измерения, когда в веществе нет молекулярной активности. Как мы видим, ни на шкале Цельсия, ни на шкале Фаренгейта ноль на самом деле не означает полное отсутствие чего-либо. Это просто точка отсчета, которая имеет смысл только относительно полной шкалы и ее возможных, достижимых значений.

Для шкал температуры единственной шкалой, имеющей истинную нулевую точку, является шкала Кельвина. В шкале Кельвина точка измерения 0 К действительно означает отсутствие молекулярной активности, при этом ноль обозначает минимально возможное значение в шкале Кельвина. В шкале Кельвина, следовательно, отрицательные значения невозможны, в отличие от шкал Цельсия и Фаренгейта (и, как мы скоро увидим, шкалы IRT). Все три шкалы температуры не имеют реального предела для своих максимальных значений, поскольку не известен предел того, насколько горячим может быть что-то.

Теперь, можем ли мы действительно сказать, что одна шкала лучше, чем другая? Не совсем. Все три шкалы вполне действительны сами по себе и широко используются в разных контекстах, причем некоторые шкалы считаются более подходящими пользователями в зависимости от конкретных контекстов. Однако есть одно, что объединяет эти три шкалы, и что делает их вполне подходящими для точного измерения, - это тот факт, что расстояние между любыми двумя точками измерения на шкале указывает на одно и то же различие в температуре. Другими словами, разница в молекулярной активности между 35 ℃ и 37 ℃ точно такая же, как и между 89 ℃ и 91 ℃. Это характеристика, которую мы в Avant считаем основой хорошего измерения, и безусловно, одна из тех, которую мы используем для наших STAMP оценок.

Despite the usefulness of looking at the three familiar temperature scales above and seeing how appropriate they are in their given contexts for the measurement of a construct such as temperature, it is important to understand that some of the characteristics they possess make them inappropriate for the measurement of a construct such as language proficiency. For example, one would find it virtually impossible to explain what negative language proficiency means or how someone can have zero ability in a language; even a person who has never studied or been in contact with a given language previously will have some (albeit minimum) knowledge of at least borrowed words in that language. No language proficiency test can claim that someone has zero language proficiency, since it would be impossible for a given test to assess all possible scenarios in which a person may show some, even if very basic, understanding of a word or phrase in the language. All language tests are bound by the items present in the test and what they are capable of measuring, which means that language tests may not have a zero point of measurement, but may have a minimum point of measurement, representing the point below which the test is unable to make any claims. The same applies to the maximum point of reference in a test; no matter how many items a test contains, it will never be able to measure all the language proficiency of an individual. As such, a valid scale for a language proficiency test such as the STAMP tests will have a minimum reference point (used for test takers who get all test items they saw incorrectly), no zero reference point, and will have a maximum point of reference (used for test takers who answer all test items they saw correctly).

Измерение IRT и STAMP оценки

Как отмечено выше, важно, чтобы равные интервалы в шкале, используемой для отчетности о результатах теста на знание языка, указывали на одинаковую разницу в владении языком. Все уровни теста STAMP (уровни 1 - 9) соответствуют стандартным уровням владения языком в США (от начинающего до продвинутого), как можно видеть ниже:

Несмотря на соответствие уровней STAMP этим уровням владения языком и несмотря на полезность уровней владения языком для указания общего уровня способностей экзаменуемого в языке, сами уровни стандартов не соответствуют типу числовых шкалированных баллов, которые мы ищем. Во-первых, значение интервальной разницы в национальных стандартах владения языком (и, следовательно, уровнях STAMP) не одинаково вне зависимости от точки на шкале. Например, для перехода от уровня "Выше среднего" (STAMP уровень 6) к уровню "Начальный продвинутый" (STAMP уровень 7) требуется больший уровень владения языком, чем для перехода от уровня "Высокий начальный" (STAMP уровень 3) к уровню "Ниже среднего" (STAMP уровень 4). Именно по этой причине уровни владения языком изображаются в виде перевернутой пирамиды, а не квадрата или прямоугольника. Во-вторых, несмотря на полезность уровней владения языком для указания, на каком уровне находится определенный изучающий язык в отношении своего владения языком, студенты, получившие одинаковый уровень STAMP, могут на самом деле обладать немного разными способностями в языке и могут правильно ответить на разное количество вопросов в тесте STAMP, даже если они случайно увидели одни и те же вопросы через адаптивный алгоритм STAMP. Поэтому, несмотря на важную полезность уровней STAMP и национальных стандартов владения языком для понимания уровня владения языком участников тестирования, эти уровни не так детализированы, как хотелось бы некоторым конечным пользователям наших результатов тестов.

Например, в школе может быть всего десять мест в специальном почетном разделе по чтению на французском языке. Что, если четырнадцать учеников достигли уровня 9 по чтению в STAMP? Как школа может выбрать 10 из 14 учеников для почетного класса? Случайный выбор десяти может быть признан приемлемым решением, но мы в Avant Assessment можем предложить более точный и эффективный способ помощи в этом случае. Как упоминалось выше, Avant Assessment использует статистическую методику измерения, называемую Теорией Ответа на Задачу, для калибровки всех заданий в разделах чтения и аудирования (адаптивных) тестов STAMP, чтобы согласовать количество вопросов, на которые испытуемый правильно ответил в своем конкретном тестовом пути, с уровнями STAMP и, следовательно, с уровнями национальных стандартов владения языком, к которым они привязаны, и, наконец, для получения масштабированных баллов, которые предоставляют пользователям оценок более детальную оценку языковых способностей каждого испытуемого, чем это было бы возможно, если бы отчетность велась только по уровням STAMP.

Масштабирование STAMP оценок

Как только все элементы в определенном разделе теста STAMP были откалиброваны с помощью IRT, мы можем присвоить каждому студенту оценку способностей IRT (также называемую тета в терминологии IRT) на основе правильных или неправильных ответов, которые они дали на вопросы, следуя определенному пути в каждом из разделов чтения и прослушивания их теста STAMP. Как только у нас есть это значение, мы можем масштабировать это значение (отсюда и термин, масштабирование оценок), чтобы мы могли сообщать более детализированные оценки, дополняя отчет о достигнутом уровне STAMP. Масштабируя оценки IRT, мы тогда можем гарантировать, что все масштабированные оценки положительны (нет отрицательных значений), и что пользователи оценок, такие как вышеупомянутая французская школа, могут более детально изучить уровень владения языком студентов, даже если студенты случайно получили одинаковый уровень STAMP.

Каждый из разделов чтения и прослушивания каждого теста STAMP должен быть масштабирован отдельно. Следовательно, масштабированные баллы за чтение на испанском языке нельзя напрямую сравнивать с масштабированными баллами за прослушивание на испанском языке или с масштабированными баллами за чтение на китайском языке. Другими словами, масштабированные баллы STAMP специфичны для языка и раздела.

Мы масштабируем оценки IRT в разделах Чтение или Прослушивание каждого из наших тестов с помощью простого линейного преобразования, видимого в формуле ниже:

Масштабирование выше гарантирует, что все возможные масштабируемые оценки для данного раздела теста STAMP являются положительными числами без десятичных дробей, которые намного более интуитивны, чем оценки, варьирующиеся от -4 до +4, что более типично для IRT. Линейное масштабирование, видимое в формуле выше, также гарантирует, что расстояние между любыми двуми масштабируемыми оценками указывает на одинаковую разницу в способностях в любой точке шкалы.

Интерпретация масштабированных баллов

Представьте, что у нас есть следующие студенты, которые прошли раздел "Аудирование" японского теста STAMP 4S:

  • Студент A масштабированный балл: 589
  • Студент B масштабированный балл: 612
  • Студент C масштабированный балл: 677
  • Студент D масштабированный балл: 700

Разница в уровне восприятия японского языка на слух между Студентом А и Студентом B в японском языке (23 балла по шкале) такая же, как и разница в уровне восприятия японского языка на слух между Студентом C и Студентом D (23 балла). Если два студента достигли одного и того же уровня STAMP в восприятии японского языка на слух (например, уровень STAMP 4 - Низкий промежуточный), но один из них имеет оценку по шкале, которая на 20 баллов выше другого, у нас есть серьезные основания полагать, что студент с более высокой оценкой по шкале более подготовлен, чем студент с более низкой оценкой. Чем больше разница между их оценками по шкале, тем увереннее мы можем быть, что эта разница значима и что оба студента действительно не обладают одинаковыми навыками. Оценки по шкале также могут быть полезны в случаях, когда студент, кажется, не делает прогресса после года обучения и "застревает" на том же уровне владения. Сравнение их оценки по шкале год назад и их текущей оценки по шкале может показать небольшой прирост в их навыках, даже если такой прирост был недостаточен, чтобы перевести их на следующий уровень STAMP.

Однако следует помнить одну вещь: все оценки имеют определенную погрешность измерения, связанную с их баллами. Например, стандартная ошибка измерения (SEM), сообщаемая ETS для секции Listening теста TOEFL iBT, которая использует шкалу оценок от 0 до 30, составляет 2.38 балла (Educational Testing Services, 2018). В свою очередь, для оценок раздела SAT, с диапазоном оценок от 200 до 800, стандартная ошибка измерения составляет 30 баллов (College Board, 2018). Поскольку невозможно оценить каждого студента в разные дни и по сотням тестовых заданий, каждый результат теста является снимком уровня, который данный участник смог поддержать в тот конкретный день, когда он проходил тест, и по конкретным заданиям, на которые он ответил во время проведения теста. Естественно, тест, такой как STAMP 4S, секции чтения и прослушивания которого адаптируются под компьютер, который включает большое количество заданий, нацеленных на оценку уровня каждого участника в реальном времени, и который разработан в соответствии со строгими качественными и количественными стандартами, будет иметь меньшую ошибку измерения и будет более эффективным и эффективным, чем более короткие, неадаптивные, линейные тесты, которые не следуют тем же строгим требованиям (Schultz, Whitney, & Zickar, 2014). Средняя стандартная ошибка измерения для масштабированных оценок в секциях чтения и прослушивания тестов STAMP составляет 10 баллов. Эта статистика легко выводится из типа программного обеспечения IRT, которое мы используем в Avant.

Ошибка измерения, связанная с масштабированными баллами STAMP, довольно мала, учитывая психометрическую строгость и адаптивную природу наших тестов. Хотя мы рекомендуем проводить анализ результатов тестов в основном на основе достигнутого уровня STAMP, мы в Avant предлагаем учитывать масштабированные баллы в очень конкретных случаях, когда решения большой важности должны быть приняты на основе результатов тестов STAMP, например, когда баллы STAMP используются для присуждения Государственных печатей двуязычия (SSB) или для присуждения кредитов по результатам экзамена (CBE). В таких случаях большой важности, если масштабированный балл участника теста по чтению или слушанию оказывается в пределах 10 баллов или меньше от минимального масштабированного балла, который мог бы квалифицировать их для SSB или CBE, позиция Avant заключается в том, что школа или округ могут, по своему усмотрению, предложить таким участникам теста пересдать тест STAMP (учитывая его адаптивную природу, есть большая вероятность, что участники теста не увидят точно такие же вопросы, как в предыдущем тесте). Если при этом втором тесте масштабированный балл участника теста приводит к уровню STAMP, который соответствует требованиям для SSB или CBE, позиция Avant заключается в том, что результаты этого второго теста могут быть использованы вместо результатов первого теста.

Два обсуждаемых выше сценария являются сценариями с более высокими ставками, в которых может потребоваться учет небольшого погрешности теста (помните, что все тесты имеют погрешность).

Мы рекомендуем, что в общем случае целесообразно использовать масштабированные баллы STAMP для традиционных целей, таких как для ежегодного анализа или роста учеников, а также для оценки программы.

Чтобы увидеть таблицы масштабированных баллов, которые в настоящее время доступны для оценок STAMP, нажмите здесь.

Ссылки:

College Board (2018). SAT: Понимание оценок. Получено из https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Надежность и сопоставимость баллов TOEFL iBT. Серия исследований TOEFL (т. 3). Извлечено из www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Шульц, К. С., Уитни, Д. Дж., & Зикар, М. Дж. (2014). Теория измерений в действии. Кейс-стади и упражнения (2-е изд.). Лондон/Нью-Йорк: Routledge. Колледж Борд (2018). SAT: Понимание оценок. Получено из https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

Educational Testing Services (2018). Надежность и сопоставимость баллов TOEFL iBT. Серия исследований TOEFL (т. 3). Получено с www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Теория измерений в действии. Кейс-стади и упражнения (2-е изд.). Лондон/Нью-Йорк: Routledge.

Обновлено:
Январь