Co to jest Score Scaling?
Gdy twórcy testów przekazują wyniki testów użytkownikom końcowym (administratorom szkół, nauczycielom, rodzicom, samym osobom zdającym testy lub innym potencjalnym użytkownikom wyników), ważne jest, aby znaczenie podawanych wyników numerycznych było jasne i łatwe do użycia. Jeśli nie, jaki jest sens wyników testów?
Wyniki testów mogą przyjmować wiele różnych form.
Na przykład, wyniki w niektórych testach podawane są w formie liczby poprawnych odpowiedzi lub procentu poprawnych odpowiedzi. Tego typu raportowanie jest przydatne w przypadkach, gdy każdy zdający zdaje dokładnie ten sam test, jak ma to miejsce w przypadku liniowych testów o stałej formie.
Testy Avant STAMP (STAndards-based Measurement of Proficiency) korzystają jednak z bardziej nowoczesnych podejść psychometrycznych i rozwoju testów, nie są to testy liniowe. Wszystkie testy STAMP z czytania i słuchania są adaptacyjne, co oznacza, że trudność testu dostosowuje się w czasie rzeczywistym do szacowanej zdolności językowej każdego zdającego. Skutkuje to dokładniejszym pomiarem biegłości językowej zdających i zapewnia przyjemniejsze doświadczenie niż zwykle w przypadku testu liniowego, ponieważ zdający nie napotkają na dużą liczbę zadań znacznie poniżej lub powyżej ich rzeczywistego poziomu biegłości. Tego potężnego podejścia do tworzenia i wdrażania testów można dokonać tylko za pomocą techniki psychometrycznej zwanej teorią odpowiedzi na pozycję (IRT). W IRT, każde pojedyncze zadanie testowe (znane również jako pytanie testowe) jest powiązane z własnym naukowo zmierzonym poziomem trudności. W przypadku STAMP, poziom trudności każdego zadania w teście jest obliczany przez analizę IRT odpowiedzi setek (a w wielu przypadkach, tysięcy) reprezentatywnych zdających. Pozwala nam to kalibrować zadania pod względem ich trudności i upewnić się, że tylko najlepsze zadania są używane w każdym teście STAMP.
Algorytm oceny STAMP wykorzystuje również te informacje o trudności elementów, aby obliczyć końcowy poziom STAMP każdego zdającego test, na podstawie elementów, które próbowali podczas testu, ich reakcji na każdy element, oraz zdolności, które zdający test muszą wykazać, aby uzyskać punkty na każdym z poziomów STAMP (to ostatnie jest ustalane za pomocą procesu nazywanego ustalaniem standardów). Dlatego, biorąc pod uwagę adaptacyjny charakter ocen STAMP i fakt, że każdy element ma pewien statystyczny poziom trudności z nim związany, podawanie wyników STAMP w formie liczby poprawnych odpowiedzi (np. 23 na 30) lub procentu poprawnych (76,6%) nie jest ani znaczące, ani odpowiednie.
Jak wkrótce omówimy, teoria odpowiedzi na pozycje (IRT), która stanowi statystyczną podstawę rozwoju i oceny testów Avant STAMP, korzysta z skali ocen, która nie jest bardzo intuicyjna dla użytkowników końcowych testów STAMP. Na przykład, skala IRT ma zarówno wartości ujemne, jak i dodatnie. Poinformowanie zdającego na jego raporcie wyników, że jego umiejętności czytania w niemieckim teście STAMP 4S wynoszą -1,4, nie byłoby pomocne i naruszałoby wymóg jasnych i łatwych do użycia wyników omówionych powyżej. Z tego powodu konieczne jest, aby wartości wyników STAMP oparte na IRT zostały przeliczone na bardziej znaczącą i łatwą do zinterpretowania skalę ocen. Skala to w zasadzie spektrum potencjalnych wartości pomiarowych, a twórcy testów muszą zdecydować o punktach odniesienia skali ocen, zanim wyniki mogą być zgłoszone.
Zrozumienie punktów odniesienia skali
Trzy skale, z którymi czytelnicy prawdopodobnie są zaznajomieni, to skale temperatury: Celsjusza, Fahrenheita i Kelvina. Chociaż wszystkie trzy to skale temperatury, ich punkty odniesienia i interpretacja różnią się znacznie. To samo może dotyczyć różnych skal używanych do raportowania wyników biegłości językowej.
W skali Celsjusza, stopień 0 ℃ wskazuje punkt pomiarowy, w którym woda zamarza na poziomie morza, podczas gdy minimalna możliwa wartość pomiarowa w skali Celsjusza to -273,15 ℃, co jest punktem, w którym nie ma absolutnie żadnej aktywności molekularnej w substancji. Natomiast w skali Fahrenheita, punkt pomiarowy, w którym woda zamarza na poziomie morza, to 32 stopnie F, nie 0 stopni F. W skali Fahrenheita, - 459,67 F wskazuje minimalną możliwą wartość pomiarową, kiedy nie ma żadnej aktywności molekularnej w substancji. Jak widać, ani w skali Celsjusza, ani w skali Fahrenheita, zero nie oznacza faktycznego braku czegoś. Jest to po prostu punkt odniesienia, który ma sens tylko w odniesieniu do całej skali i jej możliwych, osiągalnych wartości.
Dla skal temperatury, jedyną skalą, która ma prawdziwy punkt zero, jest skala Kelvina. W skali Kelvina, punkt pomiarowy 0 K oznacza faktycznie brak jakiejkolwiek aktywności molekularnej, a zero oznacza minimalną możliwą wartość w skali Kelvina. W skali Kelvina, zatem, wartości ujemne nie są możliwe, inaczej niż w skalach Celsjusza i Fahrenheita (i jak zobaczymy wkrótce, w skali IRT). Wszystkie trzy skale temperatury nie mają rzeczywistego limitu dla swoich maksymalnych wartości, ponieważ nie ma znanego limitu, jak gorący może być jakiś obiekt.
Czy możemy naprawdę powiedzieć, że jedna skala jest lepsza od drugiej? Nie do końca. Wszystkie trzy skale są doskonale prawidłowe same w sobie i są powszechnie używane w różnych kontekstach, przy czym niektóre skale są uważane za bardziej odpowiednie przez użytkowników w zależności od konkretnych kontekstów. Jedną rzeczą, która łączy te trzy skale, a która sprawia, że są one doskonale odpowiednie do precyzyjnego pomiaru, jest fakt, że odległość między dowolnymi dwoma punktami pomiarowymi na skali wskazuje na tę samą różnicę temperatury. Innymi słowy, różnica w aktywności molekularnej między 35 ℃ a 37 ℃ jest dokładnie taka sama jak między 89 ℃ a 91 ℃. Jest to cecha, którą my w Avant uważamy za istotę dobrego pomiaru, i na pewno jedną, której używamy do naszych wyników STAMP.
Pomimo użyteczności spojrzenia na trzy powyższe, znane skale temperatury i oceny, jak odpowiednie są one w swoich konkretnych kontekstach do pomiaru konstruktu, jakim jest temperatura, ważne jest zrozumienie, że niektóre z ich cech czynią je nieodpowiednimi do pomiaru konstruktu, jakim jest biegłość językowa. Na przykład, byłoby praktycznie niemożliwe wyjaśnienie, co oznacza ujemna biegłość językowa lub jak ktoś może mieć zerową umiejętność językową; nawet osoba, która nigdy nie uczyła się ani nie miała styczności z danym językiem, będzie miała pewną (choć minimalną) wiedzę co najmniej o słowach zapożyczonych w tym języku. Żaden test biegłości językowej nie może twierdzić, że ktoś ma zerową biegłość językową, ponieważ byłoby niemożliwe dla danego testu ocenić wszystkie możliwe scenariusze, w których osoba może wykazać choćby bardzo podstawowe zrozumienie słowa lub frazy w języku. Wszystkie testy językowe są ograniczone przez elementy obecne w teście i to, co są one w stanie zmierzyć, co oznacza, że testy językowe mogą nie mieć punktu zerowego pomiaru, ale mogą mieć minimalny punkt pomiaru, reprezentujący punkt, poniżej którego test nie jest w stanie stwierdzić żadnych twierdzeń. To samo dotyczy maksymalnego punktu odniesienia w teście; bez względu na to, ile elementów zawiera test, nigdy nie będzie w stanie zmierzyć wszystkich umiejętności językowych jednostki. W związku z tym, ważna skala dla testu biegłości językowej, takiego jak testy STAMP, będzie miała minimalny punkt odniesienia (używany dla osób, które odpowiedziały niepoprawnie na wszystkie elementy testu, które widziały), nie będzie miała punktu zerowego odniesienia, a będzie miała maksymalny punkt odniesienia (używany dla osób, które odpowiedziały poprawnie na wszystkie elementy testu, które widziały).
Pomiar IRT i wyniki STAMP
Jak zauważono powyżej, ważne jest, aby równe interwały w skali używanej do raportowania wyników testu z języka wskazywały na tę samą różnicę w biegłości językowej. Wszystkie poziomy testu STAMP (poziomy 1 - 9) są dostosowane do amerykańskich standardów biegłości językowej (od Novice Low do Advanced High), co można zobaczyć poniżej:

Pomimo dostosowania poziomów STAMP do tych poziomów biegłości i pomimo użyteczności poziomów biegłości do wskazania ogólnego poziomu umiejętności testowanego w języku, poziomy standardów same w sobie nie odpowiadają typowi numerycznych skalowanych wyników, których szukamy. Po pierwsze, znaczenie różnicy interwałów w krajowych standardach biegłości (a więc poziomach STAMP) nie jest takie samo niezależnie od punktu na skali. Na przykład, wymaga to większej ilości umiejętności językowych, aby przejść z poziomu Intermediate High (STAMP poziom 6) do Advanced Low (STAMP poziom 7) niż aby przejść z poziomu Novice High (STAMP poziom 3) do Intermediate Low (STAMP poziom 4). Z tego właśnie powodu, poziomy biegłości są przedstawiane jako odwrócony trójkąt, a nie jako kwadrat czy prostokąt. Po drugie, pomimo użyteczności poziomów biegłości do wskazania, gdzie dany uczący się języka stoi pod względem swojej biegłości językowej, studenci uzyskujący ten sam poziom STAMP mogą faktycznie mieć nieco różne umiejętności językowe i mogą odpowiedzieć poprawnie na różną liczbę pytań w teście STAMP, nawet jeśli zdarzyło się, że widzieli dokładnie te same elementy za pomocą adaptacyjnego algorytmu STAMP. Dlatego, pomimo ważnej użyteczności poziomów STAMP i krajowych standardów biegłości w zrozumieniu biegłości językowej osób przystępujących do testu, te poziomy nie są tak precyzyjne, jak by tego chcieli niektórzy końcowi użytkownicy naszych wyników testów.
Na przykład, szkoła może mieć tylko dziesięć miejsc w specjalnej sekcji honorowej z Czytania po Francusku. Co jeśli czternaście z uczniów osiągnęło poziom STAMP 9 w Czytaniu? Jak szkoła może wybrać 10 z 14 uczniów do klasy honorowej? Losowe wybranie dziesięciu może być uznane za akceptowalne rozwiązanie, ale my w Avant Assessment możemy zapewnić lepszy i bardziej precyzyjny sposób pomocy w tym przypadku. Jak wspomniano powyżej, Avant Assessment korzysta z techniki pomiaru statystycznego zwanej Teorią Odpowiedzi na Pozycje do kalibracji wszystkich elementów w sekcjach Czytania i Słuchania (adaptacyjnych) testów STAMP, aby dostosować liczbę pytań, na które zdający test poprawnie odpowiada w swojej specyficznej ścieżce testowej, do poziomów STAMP i zatem poziomów standardów biegłości krajowych, do których są one dostosowane, a na koniec, wyprodukować skalowane wyniki, które dostarczają użytkownikom wyników bardziej szczegółową miarę zdolności językowych każdego zdającego test, niż byłoby to możliwe, gdyby raportowane były tylko poziomy STAMP.
Skalowanie Wyników STAMP
Gdy wszystkie elementy w określonej sekcji testu STAMP zostaną skalibrowane za pomocą IRT, jesteśmy w stanie przypisać każdemu uczniowi oszacowanie zdolności IRT (nazywane również theta w terminologii IRT) na podstawie odpowiedzi, które udzielili poprawnie lub niepoprawnie na konkretną ścieżkę, którą podążali w każdej z sekcji Czytania i Słuchania ich testu STAMP. Gdy mamy już tę wartość, jesteśmy w stanie przeskalować tę wartość (stąd termin, skalowanie wyników), abyśmy mogli raportować bardziej szczegółowe wyniki, w celu uzupełnienia raportowania osiągniętego poziomu STAMP. Skalując wyniki IRT, jesteśmy w stanie zapewnić, że wszystkie przeskalowane wyniki są dodatnie (brak wartości ujemnych) i że użytkownicy wyników, tacy jak hipotetyczna francuska szkoła powyżej, są w stanie bardziej skupić się na biegłości uczniów, nawet jeśli uczniowie zdobyli ten sam poziom STAMP.
Każda z sekcji Czytania i Słuchania w każdym teście STAMP musi być skalowana oddzielnie. Dlatego skalowane wyniki dla Czytania w języku hiszpańskim nie mogą być bezpośrednio porównywane ze skalowanymi wynikami dla Słuchania w języku hiszpańskim, ani ze skalowanymi wynikami dla Czytania w języku chińskim. Innymi słowy, skalowane wyniki STAMP są specyficzne dla języka i sekcji.
Skalujemy wyniki IRT w sekcjach Czytania lub Słuchania każdego z naszych testów za pomocą prostej transformacji liniowej, widocznej w poniższym wzorze:

Skalowanie opisane powyżej gwarantuje, że wszystkie możliwe przeskalowane wyniki dla danej sekcji testu STAMP są dodatnimi liczbami bez miejsc dziesiętnych, które są o wiele bardziej intuicyjne niż wyniki w zakresie od -4 do +4, typowe dla IRT. Liniowe skalowanie widoczne we wzorze powyżej również zapewnia, że odległość między dowolnymi dwoma przeskalowanymi wynikami wskazuje na tę samą różnicę w zdolnościach w dowolnym punkcie skali.
Interpretacja Skalowanych Wyników
Wyobraź sobie, że mamy następujących studentów, którzy przystąpili do części słuchowej japońskiego testu STAMP 4S:
- Student A przeliczony wynik: 589
- Student B przeliczony wynik: 612
- Student C przeliczony wynik: 677
- Student D wynik w skali: 700
Różnica w umiejętnościach słuchania japońskiego między Studentem A a Studentem B w japońskim (23 punkty skali) jest taka sama jak różnica w umiejętnościach słuchania japońskiego między Studentem C a Studentem D (23 punkty). Jeśli dwóch studentów osiągnęło ten sam poziom STAMP w słuchaniu japońskiego (np. poziom STAMP 4 – niski poziom średniozaawansowany), ale jeden z nich miał wynik skalowany, który jest o 20 punktów wyższy od drugiego, mamy mocne podstawy, aby sądzić, że student z wyższym wynikiem skalowanym jest bardziej biegły niż student z niższym wynikiem skalowanym. Im większa różnica między ich wynikami skalowanymi, tym pewniej możemy stwierdzić, że różnica ta ma znaczenie i że obaj studenci nie są równie biegli. Wyniki skalowane mogą być również przydatne w przypadkach, gdy student może wydawać się nie robić postępów po roku nauki i utknąć na tym samym poziomie biegłości. Porównanie ich wyniku skalowanego sprzed roku i ich wyniku skalowanego z obecnego roku może pokazać niewielkie przyrosty w ich biegłości, nawet jeśli takie przyrosty nie były wystarczające, aby przenieść ich na następny poziom STAMP.
Jedno należy jednak mieć na uwadze: wszystkie oceny mają pewien margines błędu pomiaru związany z ich wynikami. Na przykład, standardowy błąd pomiaru (SEM) podany przez ETS dla sekcji Słuchania testu TOEFL iBT, który korzysta z skali ocen od 0 do 30, wynosi 2,38 punktów skalowanych (Educational Testing Services, 2018). Z kolei dla wyników sekcji SAT, z zakresem ocen od 200 do 800, standardowy błąd pomiaru wynosi 30 punktów (College Board, 2018). Ponieważ nie jest możliwe ocenianie każdego ucznia w wielu różnych dniach i na setkach różnych zadań, każdy wynik testu jest obrazem poziomu, który dany zdający był w stanie utrzymać w konkretnym dniu, w którym przystąpił do testu, oraz na konkretnych zadaniach, które rozwiązał podczas jego przeprowadzania. Naturalnie, test taki jak STAMP 4S, którego sekcje Czytania i Słuchania są adaptacyjne, które obejmują dużą liczbę zadań skierowanych do szacowanego poziomu każdego zdającego w czasie rzeczywistym, i które są opracowywane według surowych standardów jakościowych i ilościowych, będzie miał tendencję do mniejszego błędu pomiaru i będzie bardziej skuteczny i wydajny niż krótsze, nieadaptacyjne, liniowe testy, które nie stosują się do tych samych rygorów (Schultz, Whitney, & Zickar, 2014). Średni standardowy błąd pomiaru dla wyników skalowanych w sekcjach Czytania i Słuchania testów STAMP wynosi 10 punktów skalowanych. Statystykę tę łatwo można wywieść z typu oprogramowania IRT, które stosujemy w Avant.
Błąd pomiaru związany ze skalowanymi wynikami STAMP jest dość mały, biorąc pod uwagę rygor psychometryczny i adaptacyjny charakter naszych testów. Chociaż zalecamy, aby analizy wyników testów były przeprowadzane głównie na podstawie osiągniętego poziomu STAMP, my w Avant sugerujemy, że wyniki skalowane mogą być brane pod uwagę w bardzo konkretnych przypadkach, gdy decyzje o wyższej stawce mają być podejmowane na podstawie wyników testów STAMP, takich jak przyznawanie Państwowych Pieczęci Dwujęzyczności (SSB) lub przyznawanie kredytów na podstawie egzaminu (CBE). W takich przypadkach o wyższej stawce, jeśli skalowany wynik osoby zdającej test z Czytania lub Słuchania jest o 10 punktów lub mniej od minimalnego skalowanego wyniku, który mógłby zakwalifikować ich do SSB lub CBE, stanowisko Avant jest takie, że szkoła lub dystrykt mogą, według własnego uznania, nakazać takim osobom zdającym test ponowne przystąpienie do testu STAMP (ze względu na jego adaptacyjny charakter, istnieje duża szansa, że osoby zdające test nie zobaczą dokładnie tych samych elementów co w poprzednim podejściu). Jeśli przy tej drugiej próbie skalowany wynik osoby zdającej test prowadzi do poziomu STAMP, który spełnia wymagania dla SSB lub CBE, stanowisko Avant jest takie, że wyniki z tego drugiego podejścia mogą być użyte zamiast wyników z pierwszego podejścia.
Dwa scenariusze omówione powyżej to scenariusze o wyższej stawce, w których rozważenie niewielkiego marginesu błędu testu może być uzasadnione (pamiętaj, że wszystkie testy mają margines błędu).
Zalecamy, aby zazwyczaj stosować przeskalowane wyniki STAMP do tradycyjnych zastosowań, takich jak ciągła roczna analiza lub rozwój uczniów, a także do oceny programów.
Aby zobaczyć dostępne obecnie tabele skalowanych wyników dla ocen STAMP, kliknij tutaj.
Referencje:
College Board (2018). SAT: Rozumienie Wyników. Pobrano z https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
Educational Testing Services (2018). Niezawodność i porównywalność wyników TOEFL iBT. Seria Badań TOEFL (tom 3). Pobrano z www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria pomiaru w akcji. Studia przypadków i ćwiczenia (2. wyd.). Londyn/Nowy Jork: Routledge. College Board (2018). SAT: Zrozumienie wyników. Pobrane z https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf
Educational Testing Services (2018). Niezawodność i porównywalność wyników TOEFL iBT. TOEFL Research Insight Series (tom 3). Pobrane z www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf
Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). Teoria pomiaru w praktyce. Studia przypadków i ćwiczenia (2 wyd.). Londyn/Nowy Jork: Routledge.