Przegląd

Accurate and reliable scores are essential in language proficiency testing. The Reading and Listening sections of STAMP are multiple-choice, which allows for automatic scoring. The Writing and Speaking allow open-ended responses, which involves human raters.

Automatycznie punktowane

czytanie i słuchanie

Human Rated

Pisanie i mówienie.

Z tego powodu Avant dokłada wszelkich starań, aby dokładność naszych ocen była jak najwyższa.

A recent analysis of over 23,000 responses for Writing and Speaking ratings for five STAMP 4S languages (Arabic, Spanish, French, Simplified Chinese, and Russian) and three STAMP WS languages (Amharic, Haitian Creole, and Vietnamese) found that Avant’s raters demonstrated high scoring accuracy and inter-rater agreement , making the scores awarded in the Writing and Speaking sections of STAMP accurate and reliable for their intended purposes.

Jak oceniana jest biegłość w pisaniu i mówieniu?

The study examined the Writing and Speaking sections of STAMP, scored by trained raters using STAMP levels from 0 (No Proficiency) to 8 (Advanced-Mid).

Examinees respond to three real-world prompts, showcasing their skills. Certified raters independently score each response, backed by rigorous training and ongoing monitoring to ensure accuracy and consistency.

For 80% of responses, a single rater’s score is official. For the remaining 20%, at least two raters score the response, with a manager resolving disagreements. Raters work independently, ensuring unbiased results. The final Writing or Speaking scores seen in our reports reflects the highest level consistently demonstrated across at least two of the three prompts.

Poniższy wykres ilustruje ten proces:

Rysunek 1. Zasady systemowe dotyczące ustalania ostatecznego poziomu STAMP zdającego w sekcjach Pisanie i Mówienie

Jak pokazano na rysunku 1, oficjalny poziom STAMP egzaminowanego jest określany przez najwyższy poziom, jaki może on konsekwentnie wykazywać w co najmniej dwóch z trzech odpowiedzi. Na przykład, jeśli egzaminowany otrzyma Novice-Mid za pierwszą odpowiedź, Novice-High za drugą i Novice-High za trzecią, jego ostateczny poziom STAMP to STAMP 3 (Novice-High). Alternatywnie, jeśli otrzymają Intermediate-Low za pierwszą odpowiedź, Novice-High za drugą i Intermediate-Mid za trzecią, ich ostateczny poziom to Intermediate-Low, ponieważ jest to najwyższy poziom, który utrzymali dwukrotnie (w pierwszej i trzeciej odpowiedzi).

Korzystanie z trzech niezależnych podpowiedzi w sekcjach STAMP dotyczących pisania i mówienia ma dwie główne zalety:

  1. Szerszy zakres tematyczny: Ocenianie egzaminatorów z różnych tematów zapewnia, że przyznany poziom biegłości jest bardziej prawdopodobny do uogólnienia na inne sytuacje w świecie rzeczywistym.
  2. Minimalizowanie stronniczości oceniających: W połączeniu z metodą punktacji, korzystanie z wielu podpowiedzi pomaga zmniejszyć potencjalną stronniczość poszczególnych oceniających.

Następnie omówimy definicje niezawodności i dokładności.

Niezawodność a dokładność

dokładny vs niezawodny wykres.
Figure 2: The difference between reliability and accuracy. Ideally, tests should be both reliable and accurate, as this ensures the validity of the scores for their intended use and interpretation

Niezawodność

Rzetelność odnosi się do spójności pomiaru (Bachman & Palmer, 1996). Mówiąc prościej, jest to stopień, w jakim możemy ufać, że wyniki testu pozostaną takie same, jeśli egzaminowany podejdzie do testu ponownie w innym czasie lub weźmie udział w różnych wersjach testu, zakładając, że jego umiejętności nie uległy zmianie.

Na przykład, jeśli egzaminowany uzyska dziś wynik średnio-niski, a jutro średnio-wysoki, bez żadnych zmian w swojej wiedzy lub stanie psychicznym, sugeruje to, że test może nie być wysoce wiarygodny. Podobnie, jeśli egzaminowany uzyskuje wynik na poziomie Advanced-Low w jednej wersji testu i Intermediate-Mid w innej, oznacza to brak spójności, wskazując na problem z wiarygodnością testu.

Jednym z czynników wpływających na wiarygodność testu jest sposób jego oceniania. W teście STAMP sekcje czytania i słuchania składają się z pytań wielokrotnego wyboru, które są automatycznie oceniane przez komputer. Gwarantuje to, że jeśli egzaminowany udzieli tych samych odpowiedzi przy różnych okazjach, zawsze otrzyma ten sam wynik.

However, the Writing and Speaking sections involve  scoring  by human raters. This means that scores can vary depending on who rates the response. However, with well-trained raters, we expect score variations to be minimal, reducing the impact of leniency, strictness, or potential bias.

Dokładność

Egzaminatorzy oczekują, że ich wyniki będą odzwierciedlać jedynie ich biegłość w mierzonym konstrukcie (w STAMP, biegłość w każdej domenie językowej).

Dokładność odnosi się do tego, jak dobrze przyznany wynik odzwierciedla rzeczywiste umiejętności zdającego. Na przykład, jeśli zdający przedstawi odpowiedź na poziomie Intermediate-High, ale otrzyma wynik Intermediate-Low od dwóch oceniających, wynik jest niedokładny. Nawet jeśli dwaj inni oceniający przyznają ocenę Intermediate-Low dwa miesiące później, wynik pozostaje niedokładny, chociaż jest wiarygodny (ponieważ jest spójny między oceniającymi i w czasie).

Ocena wiarygodności i dokładności wyników testerów

Gdy odpowiedzi są oceniane przez osoby oceniające, tak jak w przypadku STAMP, kluczowe jest zapewnienie, że wyniki odzwierciedlają jakość samej odpowiedzi, a nie charakterystykę osoby oceniającej. Innymi słowy, wyniki powinny zależeć wyłącznie od wykazanej biegłości egzaminowanego, a nie od pobłażliwości, surowości lub stronniczości oceniającego.

Dostawcy testów językowych często używają statystyk, aby pokazać, jak bardzo wyniki mogą się różnić w zależności od oceniającego. Zazwyczaj polega to na porównaniu ocen dwóch różnych osób oceniających tę samą odpowiedź. Idealnie byłoby, gdyby oceniający zgadzali się tak często, jak to możliwe, co wskazuje na wiarygodny proces oceniania.

However, reliability must also be accompanied by accuracy. Two raters may assign the same score, but both could be incorrect. In a well-developed test, the goal is for raters to consistently agree and be accurate in their scoring.

Idealna zgodność między oceniającymi ludźmi nie zawsze jest realistyczna. Pomimo szkolenia i wiedzy specjalistycznej, nawet wykwalifikowani oceniający mogą czasami się nie zgadzać - podobnie jak lekarze, inżynierowie lub naukowcy. Celem jest osiągnięcie wysokiej zgodności, którą można obronić, biorąc pod uwagę zamierzone wykorzystanie wyników.

Below are the statistical measures we use at Avant to evaluate the quality of ratings provided by our raters. While many companies report only exact and adjacent agreement, we assess additional measures to get a comprehensive view of rating quality. The measures reported in this paper include:

Dokładna umowa:

Miara ta jest podawana jako wartość procentowa, która wskazuje odsetek przypadków, w całym analizowanym zbiorze danych, gdy poziom przyznany danej odpowiedzi przez Rater 1 jest dokładnie taki sam jak poziom przyznany przez Rater 2. Na przykład, jeśli Rater 1 przyzna odpowiedzi poziom STAMP 5, a Rater 2 również przyzna tej samej odpowiedzi poziom STAMP 5, zostanie to uznane za przypadek dokładnej zgodności. Feldt i Brennan (1989) sugerują, że gdy wykorzystywanych jest dwóch oceniających, dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.

Ta miara jest zgłaszana jako wartość procentowa, pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam poziom do odpowiedzi w całym zbiorze danych. Na przykład, jeśli obaj oceniający przypiszą poziom STAMP 5 do tej samej odpowiedzi, liczy się to jako przypadek dokładnej zgodności. Według Feldt i Brennan (1989) dokładna zgodność powinna wynosić co najmniej 80%, przy czym 70% uważa się za akceptowalne do użytku operacyjnego.

This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below. 

Dokładna + sąsiadująca umowa:

Ta miara jest podawana jako wartość procentowa pokazująca, jak często Rater 1 i Rater 2 przypisywali ten sam lub sąsiedni poziom do odpowiedzi w całym zbiorze danych.

Na przykład poziom 5 STAMP sąsiaduje z poziomami 4 i 6. Jeśli Rater 1 przypisuje poziom 4, a Rater 2 przypisuje poziom 5, liczy się to do tej miary, ponieważ poziomy sąsiadują ze sobą. Według Graham et al. (2012), gdy skala ocen ma więcej niż 5-7 poziomów, tak jak w przypadku skali STAMP, dokładna + sąsiadująca zgodność powinna być bliska 90%.

This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below. 

Kwadratowa ważona kappa (QWK)

Współczynnik kappa Cohena (𝜅) mierzy wiarygodność między dwoma oceniającymi, uwzględniając możliwość przypadkowego porozumienia. Na przykład w przypadku 9-punktowej skali STAMP (od poziomu 0 do poziomu 8) istnieje 11,11% szans, że dwóch oceniających zgodzi się co do wyniku wyłącznie przez przypadek. Przy Avantprzy obliczaniu kappa stosujemy również wagi kwadratowe, co oznacza, że większe rozbieżności między wynikami są karane wyższymi karami. Na przykład, różnica między poziomem 3 STAMP a poziomem 7 jest bardziej problematyczna niż różnica między poziomem 3 a poziomem 4.

Williamson et al. (2012) zalecają, aby ważony kwadratowo współczynnik kappa (QWK ) wynosił ≥ 0,70, podczas gdy Fleiss (2003) zauważa, że wartości powyżej 0,75 wskazują na doskonałą zgodność wykraczającą poza przypadek. Wartość QWK równa 0 oznacza, że zgodność jest czysto przypadkowa, podczas gdy wartość 1 oznacza doskonałą zgodność.

Standaryzowana średnia różnica (SMD)

Ta miara pokazuje, jak podobnie dwóch oceniających używa skali ocen. Porównuje różnicę w średniej dwóch zestawów wyników (Rater 1 vs. Rater 2), znormalizowaną przez łączne odchylenie standardowe tych wyników. W idealnej sytuacji żaden z oceniających nie powinien faworyzować lub unikać pewnych poziomów na skali (np. unikać STAMP 0 lub STAMP 8). Innymi słowy, obaj oceniający powinni używać pełnego zakresu skali(STAMP 0 - STAMP 8), z punktacją odzwierciedlającą biegłość wykazaną w odpowiedzi. Zalecana wartość dla tej miary wynosi ≤ 0,15 (Williamson i in., 2012), co wskazuje, że rozkłady obu zestawów wyników są akceptowalnie podobne.

Korelacja rang Spearmana (ρ)

Ta miara wskazuje siłę związku między dwiema zmiennymi: poziomem STAMP przypisanym przez oceniającego 1 i poziomem przypisanym przez oceniającego 2. Jeśli oceniający są dobrze wyszkoleni i rozumieją rubrykę oceny, spodziewamy się, że obaj oceniający przypiszą podobne poziomy - co oznacza, że wyniki powinny przesuwać się razem. Innymi słowy, gdy Rater 1 przypisuje wysoki poziom, Rater 2 powinien również przypisać wysoki poziom, odzwierciedlając spójną ocenę tego samego konstruktu.

Używamy współczynnika korelacji rang Spearmana zamiast Pearsona, ponieważ współczynnik Spearmana lepiej nadaje się do danych porządkowych, takich jak poziomy biegłości STAMP. Współczynnik korelacji na poziomie 0,80 lub wyższym jest uważany za silny w większości dziedzin (Akoglu, 2018).

2 poziomy STAMP Apart

Ta miara, wyrażona w procentach, pokazuje, jak często dwie oceny tej samej odpowiedzi różnią się o 2 poziomy STAMP (np. ocena 1 przypisuje poziom STAMP 4, a ocena 2 przypisuje poziom STAMP 6).

Wykres poglądowy

Bar chart titled 'Avant STAMP Score Accuracy Overview' showing Exact and Exact + Adjacent Agreement percentages for STAMP 4S and STAMP WS writing and speaking. Writing: Exact = 86.6% / 94.9%, Exact + Adjacent = 99.6% / 99.7%. Speaking: Exact = 83.2% / 97%, Exact + Adjacent = 99.3% / 99.9%. Reference lines mark Acceptable (70–75%) and Desirable (80–90%) thresholds.
Wykres pokazujący wysoką dokładność oceniających Avant w sekcjach Pisanie i Mówienie.

Szczegółowe statystyki wyników

Skupiamy się teraz na jakości ocen w sekcjach Pisanie i Mówienie w STAMP 4S i STAMP WS, biorąc pod uwagę powyższe statystyki w kilku reprezentatywnych językach. Poniżej przedstawiamy wyniki oparte na dwóch różnych zestawach porównań:

Rater 1 vs Rater 2

Porównujemy poziom STAMP przyznany przez oceniającego 1 z poziomem przyznanym przez oceniającego 2 w wielu odpowiedziach ocenianych przez co najmniej dwóch oceniających. To porównanie potwierdza wiarygodność ocen od dwóch losowo przydzielonych Avant losowo przydzielonych oceniających. Jak wspomniano wcześniej, dwóch oceniających może zgodzić się co do wyniku, ale obaj mogą nadal być niepoprawni. Dlatego też nie uwzględniamy dokładnych miar zgodności między Rater 1 i Rater 2. Zamiast tego skupiamy się na dokładnej + sąsiadującej zgodności i zgłaszamy miary dokładności porównujące wyniki od Ratera 1 (który ocenia solo w 80% przypadków) z oficjalnymi wynikami.

Rater 1 vs oficjalny wynik

Aby ocenić dokładność poziomów przypisanych przez oceniającychAvant , analizujemy przypadki, w których odpowiedź została oceniona przez dwóch lub więcej oceniających. Porównujemy oficjalny wynik (uzyskany ze wszystkich indywidualnych ocen) z wynikiem przyznanym tylko przez Rater 1. Pomaga to wskazać, jak dokładnie oceniana jest odpowiedź, gdy zaangażowany jest tylko jeden oceniający, co ma miejsce w 80% przypadków.

Tabele 1 i 2 przedstawiają miary statystyczne dla sekcji pisania i mówienia w pięciu reprezentatywnych językach STAMP 4S.

Table 1 – Writing Score Accuracy (STAMP 4S)

PomiararabskiHiszpańskiFrancuskiChiński uproszczonyRosyjski
Liczba odpowiedzi w zestawie danychn = 3,703n = 4,758n = 4,785n = 4,766n = 3,536
Exact Agreement
(Rater 1 vs. Official Score)
(84.8%)(84.15%)(83.66%)(88.46%)(92.17%)
Exact + Adjacent Agreement
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
96.78% (98.62%)99.09% (99.79%)99.22% (99.79%)99.79%
(99.91%)
99.71% (99.88%)
Quadratic Weight Kappa (QWK)
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.93
(0.96)
0.91
(0.95)
0.91
(0.95)
0.95
(0.96)
0.95
(0.97)
Standardized Mean Difference (SMD):
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.00
(0.01)
0.00
(0.00)
0.00
(0.00)
0.00
(0.00)
0.00
(0.00)
Spearman’s Rank-Order Correlation ®:
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.94
(0.96)
0.90
(0.95)
0.91
(0.95)
0.95
(0.97)
0.94
(0.97)
2 STAMP Levels Apart:
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
2.80%
(1.24%)
0.90%
(0.20%)
0.77%
(0.20%)
0.00%
(0.00%)
0.28%
(0.11%)
Tabela 1. Statystyki rzetelności i dokładności dla sekcji pisania w pięciu reprezentatywnych językach STAMP 4S.

Table 2 – Speaking Score Accuracy (STAMP 4S)

PomiararabskiHiszpańskiFrancuskiChiński uproszczonyRosyjski
Liczba odpowiedzi w zestawie danychn = 3,363n = 4,078n = 4,530n = 4,651n = 3,392
Exact Agreement
(Rater 1 vs. Official Score)
(84.96%)(80.37%)(80.19%)(82.24%)(88.30%)
Exact + Adjacent Agreement:
Rater 1 vs. Rater
(Rater 1 vs. Official Score)
96.07%
(98.13%)
98.13%
(99.29%)
98.54%
(99.47%)
99.31%
(99.76%)
98.99%
(99.94%)

Quadratic Weight Kappa (QWK):
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.92
(0.95)
0.92
(0.96)
0.91
(0.95)
0.94
(0.95)
0.92
(0.96)
Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official )-0.02
(0.01)
0.00
(0.00)
-0.01
(0.02)
0.00
(0.00)
-0.01
(-0.01)
Spearman’s Rank-Order Correlation®:
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.93
(0.96)
0.91
(0.95)
0.92
(0.95)
0.94
(0.96)
0.91
(0.95)
2 STAMP Levels Apart:
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
3.27% (1.42%)1.74% (0.00%)1.39% (0.00%)0.00% (0.00%)1.01% (0.00%)
Tabela 2. Statystyki rzetelności i dokładności dla sekcji mówienia pięciu reprezentatywnych testów STAMP

Tabele 3 i 4 przedstawiają miary statystyczne dla sekcji pisania i mówienia w trzech reprezentatywnych językach STAMP WS.

Tabela 3 Dokładność wyników pisania (STAMP WS)

Pomiaramharskikreolski haitańskiwietnamski
Liczba odpowiedzi w zestawie danychn = 209n = 125n = 1,542
Exact Agreement
(Rater 1 vs. Official Score)
95.79%94.69%94.38%
Exact + Adjacent Agreement
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
99.52%
(100%)
97.60%
(100%)
98.57%
(99.02%)
Quadratic Weighted Kappa (QWK)
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.98
(0.99)
0.97
(0.99)
0.96
(0.97)
Standardized Mean Difference (SMD)
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
-0.01
(0.00)
0.02
(-0.02)
-0.01
(0.01)
Spearman’s Rank-Order Correlation®:
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.98
(0.99)
0.97
(0.99)
0.97
(0.98)
2 STAMP Levels Apart Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.00%
(0.00%)
2.40%
(0.00%)
0.00%
(0.00%)
Tabela 3. Statystyki rzetelności i dokładności dla sekcji pisania w trzech reprezentatywnych językach STAMP WS.

Tabela 4 Dokładność wyników mówienia (STAMP WS)

Pomiaramharskikreolski haitańskiwietnamski
Liczba odpowiedzi w zestawie danychn = 225n = 132n = 1,180
Exact Agreement
(Rater 1 vs. Official Score)
(96.21%)(97.91%)(97.01%)
Exact + Adjacent Agreement
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
100%
(100%)
100%
(100%)
99.83%
(99.83%)
Quadratic Weighted Kappa (QWK)
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.99
(0.99)
0.99
(0.99)
0.99
(0.98)
Standardized Mean Difference (SMD)
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.00
(0.00)
0.00
(0.00)
0.00
(0.01)
Spearman’s Rank-Order Correlation®
Rater 1 vs. Rater 2
(Rater 1 vs. Official Score)
0.99
(0.99)
0.99
(0.99)
0.98
(0.99)
2 poziomy STAMP (Rater 1 vs. Rater 2 / Rater 1 vs. oficjalny wynik)0.00%
(0.00%)
0.00%
(0.00%)
0.00%
(0.00%)
Tabela 4. Statystyki niezawodności i dokładności dla sekcji mówienia w trzech reprezentatywnych językach STAMP WS.

Dyskusja

A high level of reliability and accuracy is fundamental to the validity of test scores and their intended uses. What is deemed minimally acceptable in terms of reliability and accuracy will however, depend on the specific field (medicine, law, sports, forensics, language testing, etc), as well as on the consequences of awarding an inaccurate level to a specific examinee’s set of responses, and on the rating scale itself. For example, agreement will tend to be lower the higher the number of categories available in a rating scale. In other words, more disagreement between any two raters can be expected if they must assign one of ten possible levels to a response than if they must assign one of only four possible levels.

Statystyki przedstawione powyżej dla sekcji Pisanie i Mówienie zarówno w STAMP 4S, jak i STAMP WS pokazują wysoki poziom zarówno rzetelności (wyniki Rater 1 vs. Rater 2), jak i dokładności (wyniki Rater 1 vs. wyniki oficjalne).

Spośród ośmiu ocenianych języków, wiarygodność obserwowana na podstawie Dokładnego + Sąsiadującego Porozumienia pomiędzy Oceniającym 1 i Oceniającym 2 jest zawsze na poziomie minimalnym (a często znacznie wyższym) wynoszącym 96,78% dla Pisania i 96,07% dla Mówienia.

Ponadto bardzo rzadko obserwowano przypadki, w których oceny dwóch oceniających różniły się o więcej niż dwa poziomy STAMP. Poziom dokładności dla wszystkich ośmiu języków, widoczny w statystykach dokładnej zgodności między wynikiem Ratera 1 a oficjalnym wynikiem dla każdej odpowiedzi, zawsze wynosi co najmniej 83,66% (ale często znacznie więcej) w przypadku pisania i 80,19% w przypadku mówienia, przy czym dokładna + sąsiadująca zgodność zawsze wynosi co najmniej 98,62% w przypadku pisania i 98,13% w przypadku mówienia. Wartości Quadratic Weighted Kappa (QWK) wskazują na bardzo wysoki poziom zgodności zarówno między Rater 1 i Rater 2, jak i między Rater 1 i Official Scores, podczas gdy korelacja między wynikami Rater 1 i Rater 2, a także między wynikami Rater 1 i Official Scores, okazała się bardzo wysoka. Wreszcie, współczynniki SMD (znormalizowane średnie różnice) pokazują, że skala STAMP jest używana w bardzo podobny sposób przez osoby oceniające Avant .

Powyższe statystyki dostarczają dowodów na wysoką jakość programu selekcji i szkolenia oceniających na stronie Avant Assessment oraz naszej metodologii w identyfikowaniu oceniających operacyjnych, którzy mogą wymagać tymczasowego usunięcia z puli oceniających i odbycia ukierunkowanego szkolenia. Pokazuje, że gdy dwóch oceniających może różnić się poziomem STAMP przypisanym do odpowiedzi, różnica rzadko będzie większa niż 1 poziom STAMP, przy czym obaj oceniający przypisują dokładnie ten sam poziom w zdecydowanej większości przypadków. W połączeniu z faktem, że ostateczny, oficjalny wynik egzaminatora w sekcji pisania lub mówienia STAMP opiera się na jego indywidualnych wynikach STAMP w trzech niezależnych podpowiedziach.

Wyniki przedstawione w niniejszym raporcie dostarczają mocnych dowodów na to, że końcowy wynik egzaminowanego w sekcjach Pisanie i Mówienie STAMP może być wiarygodnym i dokładnym odzwierciedleniem jego poziomu biegłości językowej w tych dwóch dziedzinach.

Referencje

Akoglu, H. (2018). Przewodnik użytkownika po współczynnikach korelacji. Tureckie czasopismo medycyny ratunkowej, 18(3), 91-93.

Bachman, L. F., & Palmer, A. S. (1996). Testy językowe w praktyce: Projektowanie i opracowywanie użytecznych testów językowych (Vol. 1). Oxford University Press.

Feldt, L. S., & Brennan, R. (1989). Rzetelność. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). New York: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Metody statystyczne dla wskaźników i proporcji. 3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012). Measuring and Promoting Inter-Rater Agreement of
Teacher and Principal Performance Ratings.

Matrix Education (2022). Praktyczne umiejętności z fizyki, część 2: Ważność, wiarygodność i dokładność eksperymentów. Retrieved on August 11, 2022 (kliknij tutaj, aby przejść do źródła).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A framework for evaluation and use of automated
scoring. Educational measurement: issues and practice, 31(1), 2-13.

Aktualizacja:
January