스코어 스케일링이란 무엇인가요?

테스트 개발자가 테스트 점수를 최종 사용자들(학교 관리자, 교사, 부모, 테스트 응시자 자신 또는 기타 잠재적 점수 사용자)에게 보고할 때, 보고된 숫자 점수의 의미가 명확하고 사용하기 쉬워야 합니다. 그렇지 않다면, 테스트 점수의 의미는 무엇인가요?

테스트 점수는 다양한 형태로 나타날 수 있습니다.

예를 들어, 일부 시험에서는 정답 수 또는 정답률로 점수가 보고됩니다. 이러한 보고는 모든 시험 응시자가 선형, 고정형 시험의 경우처럼 정확히 같은 시험을 볼 때 유용합니다.

Avant STAMP (STAndards-based Measurement of Proficiency) 평가는 보다 현대적인 심리측정 및 시험 개발 접근법을 사용하며, 선형 시험은 아닙니다. 모든 STAMP 읽기 및 듣기 시험은 컴퓨터 적응형으로, 시험의 난이도가 각 시험 응시자의 추정 언어 능력에 실시간으로 적응합니다. 이로 인해 시험 응시자의 언어 능력을 더 정확하게 측정하고, 일반적으로 선형 시험에서는 경험하기 어려운 더 쾌적한 경험을 제공합니다. 왜냐하면 시험 응시자들이 자신의 실제 능력 수준을 크게 벗어나는 항목을 많이 접하지 않기 때문입니다. 이 강력한 시험 구성 및 배포 접근법은 항목 반응 이론(IRT)이라는 심리측정 기법을 통해서만 가능합니다. IRT에서는 모든 시험 항목(즉, 시험 문제)이 자체적으로 과학적으로 측정된 난이도 수준과 연관됩니다. STAMP의 경우, 시험의 각 항목의 난이도 수준은 수백 (그리고 많은 경우 수천)의 대표적인 시험 응시자들의 응답에 대한 IRT 분석을 통해 계산됩니다. 이를 통해 항목의 난이도를 보정하고, 각 STAMP 시험에서 가장 우수한 항목만 사용되도록 할 수 있습니다.

STAMP 점수 계산 알고리즘은 이 아이템 난이도 정보를 활용하여 각 시험 응시자의 최종 STAMP 레벨을 계산합니다. 이는 시험 동안 시도한 항목, 각 항목에 대한 응답, 그리고 시험 응시자가 각 STAMP 레벨에서 점수를 얻기 위해 보여야 하는 능력(후자는 표준 설정이라는 과정을 통해 결정됩니다)에 기반합니다. 따라서, STAMP 평가의 적응성과 각 항목이 특정 통계적 난이도 수준을 가지고 있다는 점을 고려할 때, STAMP 점수를 정답 수 (, 30개 중 23개) 또는 정답률 (76.6%)로 보고하는 것은 의미가 없으며 적절하지 않습니다.

우리가 곧 논의하게 될 것처럼, 아방 STAMP 테스트의 개발 및 점수화의 통계적 기반을 형성하는 항목 반응 이론(IRT)은 STAMP 테스트의 최종 사용자에게는 직관적이지 않은 점수 척도를 사용합니다. 예를 들어, IRT 척도는 음수와 양수 값을 모두 가지고 있습니다. 테스트 응시자에게 독일어 STAMP 4S 테스트에서의 읽기 능력이 -1.4라고 점수 보고서에 알리는 것은 도움이 되지 않을 뿐만 아니라, 위에서 논의한 명확하고 사용하기 쉬운 점수의 요구사항을 위반하게 됩니다. 이 때문에, IRT를 기반으로 한 STAMP 점수 값을 더 의미 있는 이해하기 쉬운 점수 척도로 변환해야 합니다. 척도는 기본적으로 잠재적인 측정 값의 스펙트럼이며, 테스트 개발자는 점수를 보고하기 전에 점수 척도의 참조점을 결정해야 합니다.

스케일의 참조점 이해하기

독자들이 잘 알고 있을 세 가지 척도는 섭씨, 화씨, 그리고 켈빈 온도 척도입니다. 세 척도 모두 온도 척도이지만, 참조점과 해석은 크게 다릅니다. 이는 언어 능력 점수를 보고하는 데 사용되는 다른 척도에도 동일하게 적용될 수 있습니다.

섭씨 척도에서, 0℃는 해수면에서 물이 얼기 시작하는 측정 지점을 나타냅니다. 반면에 섭씨 척도에서 가능한 최소 측정 값은 -273.15℃로, 이는 물질 내에서 분자 활동이 전혀 없는 지점을 나타냅니다. 그러나 화씨 척도에서는, 해수면에서 물이 얼기 시작하는 측정 지점은 32도 F이며, 0도 F가 아닙니다. 화씨 척도에서는 -459.67 F가 물질 내에서 분자 활동이 전혀 없는 지점을 나타내는 가능한 최소 측정 값입니다. 보시다시피, 섭씨나 화씨 척도에서 0은 무언가가 완전히 없음을 실제로 의미하지 않습니다. 이는 단지 전체 척도와 그것이 달성 가능한 값에 대해서만 의미가 있는 참조 지점일 뿐입니다.

온도 척도에서 진정한 제로 포인트를 가진 유일한 척도는 켈빈 척도입니다. 켈빈 척도에서 0 K 측정점은 실제로 분자 활동이 전혀 없음을 의미하며, 이는 켈빈 척도에서 가능한 최소값을 표시합니다. 따라서 켈빈 척도에서는 섭씨와 화씨 척도와는 다르게 음수 값이 가능하지 않습니다(그리고 곧 보게 될 것처럼 IRT 척도도 마찬가지입니다). 세 가지 온도 척도 모두 최대값에 실제 제한이 없는데, 이는 어떤 것이 얼마나 뜨거울 수 있는지에 대한 알려진 한계가 없기 때문입니다.

이제, 우리는 정말로 한 척도가 다른 척도보다 더 나은 것이라고 말할 수 있을까요? 그렇지 않습니다. 세 가지 척도 모두 자체적으로 완벽하게 유효하며, 특정 맥락에 따라 사용자들에게 더 적절하다고 인정받는 척도들이 다르게 사용됩니다. 이 세 가지 척도를 통합하는 한 가지 요소, 그리고 그것들을 정확한 측정에 완벽하게 적합하게 만드는 것은, 척도에서 어떤 두 측정점 사이의 거리가 온도 차이를 동일하게 나타낸다는 사실입니다. 다시 말해, 35℃와 37℃ 사이의 분자 활동 차이는 89℃와 91℃ 사이의 차이와 정확히 동일합니다. 이것은 우리 Avant에서 좋은 측정의 핵심이라고 믿는 특성이며, 확실히 우리의 STAMP 점수에 사용하는 것입니다.

위에서 볼 수 있는 세 가지 익숙한 온도 척도의 유용성에도 불구하고, 그것들이 온도와 같은 구조물의 측정에 적합한 맥락에서 어떻게 적용되는지를 보는 것이 중요하지만, 그들이 가지고 있는 일부 특성들이 언어 능력과 같은 구조물의 측정에 부적합하게 만든다는 것을 이해하는 것이 중요합니다. 예를 들어, 부정적인 언어 능력이 무엇을 의미하는지 또는 어떻게 누군가가 언어에 제로 능력을 가질 수 있는지 설명하는 것은 사실상 불가능하다고 할 것입니다. 심지어 이전에 특정 언어를 공부하거나 접촉한 적이 없는 사람조차도 그 언어에서 빌려온 단어들에 대한 최소한의 지식을 가지고 있을 것입니다. 어떤 언어 능력 테스트도 누군가가 언어 능력이 전혀 없다고 주장할 수 없습니다. 왜냐하면 특정 테스트가 사람이 언어의 단어나 문구를 기본적으로 이해하는 모든 가능한 시나리오를 평가하는 것은 불가능하기 때문입니다. 모든 언어 테스트는 테스트에 포함된 항목들에 의해 제한되며, 그들이 측정할 수 있는 것에 의해 제한되므로, 언어 테스트는 측정의 제로 포인트를 가지지 않을 수 있지만, 테스트가 어떤 주장도 할 수 없는 지점 아래의 최소 측정 포인트를 가질 수 있습니다. 테스트의 최대 참조점에도 동일한 것이 적용됩니다. 테스트가 얼마나 많은 항목을 포함하고 있던 간에, 그것은 결코 개인의 모든 언어 능력을 측정할 수 없습니다. 따라서, STAMP 테스트와 같은 언어 능력 테스트에 대한 유효한 척도는 최소 참조점(모든 테스트 항목을 잘못 본 테스트 응시자에게 사용됨), 제로 참조점이 없고, 최대 참조점(모든 테스트 항목을 올바르게 본 테스트 응시자에게 사용됨)을 가질 것입니다.

IRT 측정과 STAMP 점수

위에서 언급한 바와 같이, 언어 능력 테스트의 점수를 보고하는 데 사용되는 척도에서 동일한 간격이 같은 언어 능력 차이를 나타내는 것이 중요합니다. STAMP 테스트의 모든 레벨 (레벨 1 - 9)은 미국 언어 능력 표준 레벨 (초보자 낮음에서 고급 높음까지)에 맞춰져 있으며, 아래에서 볼 수 있습니다:

STAMP 레벨이 이런 능력 레벨에 맞춰져 있음에도 불구하고, 능력 레벨이 언어 능력의 일반적인 수준을 나타내는 데 유용함에도 불구하고, 표준 레벨 자체는 우리가 찾고 있는 숫자로 된 스케일링된 점수와 일치하지 않습니다. 첫째, 국가 능력 표준(따라서 STAMP) 레벨의 간격 차이의 의미는 스케일 상의 위치에 상관없이 동일하지 않습니다. 예를 들어, 중급 고급(STAMP 레벨 6)에서 고급 하급(STAMP 레벨 7)으로 이동하는 데는 초급 고급(STAMP 레벨 3)에서 중급 하급(STAMP 레벨 4)으로 이동하는 것보다 더 높은 언어 능력이 필요합니다. 이러한 이유로, 능력 레벨은 사각형이나 직사각형이 아닌 역피라미드로 표현됩니다. 둘째, 능력 레벨이 특정 언어 학습자의 언어 능력에 대한 위치를 나타내는 데 유용함에도 불구하고, 같은 STAMP 레벨에서 점수를 받은 학생들은 실제로 언어 능력이 약간 다르고, STAMP 테스트에서 올바르게 대답한 항목의 수가 다를 수 있습니다. 심지어 그들이 STAMP 적응 알고리즘을 통해 정확히 같은 항목을 보았더라도 말입니다. 따라서, STAMP와 국가 능력 표준 레벨이 시험 응시자의 언어 능력을 이해하는 데 중요한 유용성에도 불구하고, 이러한 레벨은 저희의 시험 점수를 사용하는 최종 사용자들이 원하는 만큼 세밀하지 않습니다.

예를 들어, 학교에서는 프랑스어 읽기의 특별 명예 섹션에 오직 열 개의 좌석만 있을 수 있습니다. 만약 학생 14명이 STAMP 레벨 9에 도달했다면 어떻게 될까요? 학교는 어떻게 명예 수업을 위해 14명 중 10명을 선택할 수 있을까요? 무작위로 열 명을 선택하는 것은 허용되는 해결책일 수 있지만, Avant Assessment에서는 이 경우에 도움이 될 수 있는 더 나은 및 더 정확한 방법을 제공할 수 있습니다. 위에서 언급했듯이, Avant Assessment는 모든 항목을 보정하기 위해 항목 반응 이론이라는 통계 측정 기법을 사용하며, 이는 (적응형) STAMP 테스트의 읽기 및 청취 섹션에서 테스트 응시자가 특정 테스트 경로에서 올바르게 대답하는 질문의 수를 STAMP 레벨 및 따라서 국가 능력 수준에 맞추고, 마지막으로, 척도 점수를 생성하여 점수 사용자에게 STAMP 레벨만이 보고된다면 가능한 것보다 각 테스트 응시자의 언어 능력을 더 세밀하게 측정할 수 있게 합니다.

STAMP 점수 조정하기

특정 STAMP 테스트의 특정 섹션에 있는 모든 항목이 IRT를 통해 보정되면, 학생들이 각각의 Reading과 Listening 섹션에서 따른 특정 경로에서 맞거나 틀린 항목에 기반하여 각 학생에게 IRT 능력 추정치 (IRT 용어로는 theta라고도 함)를 할당할 수 있습니다. 이 값을 얻게 되면, 우리는 이 값을 스케일링 할 수 있습니다(따라서 점수 스케일링이라는 용어가 나온 것입니다) 그래서 우리는 보다 세밀한 점수를 보고하기 위해 STAMP 레벨 달성의 보고를 보완할 수 있습니다. IRT 점수를 스케일링함으로써, 우리는 모든 스케일링된 점수가 양수임을 (음수 값 없음) 보장할 수 있고, 가상의 프랑스 학교와 같은 점수 사용자들이 학생들의 능숙도에 더욱 집중할 수 있게 해줄 수 있습니다, 심지어 학생들이 같은 STAMP 레벨에서 점수를 얻었더라도 말입니다.

각각의 STAMP 테스트의 읽기 및 듣기 섹션은 별도로 조정되어야 합니다. 따라서, 스페인어 읽기의 조정 점수는 스페인어 듣기의 조정 점수나 중국어 읽기의 조정 점수와 직접 비교할 수 없습니다. 다시 말해, STAMP 조정 점수는 언어와 섹션에 특정한 것입니다.

우리는 각각의 테스트에서 읽기 또는 듣기 섹션의 IRT 점수를 단순 선형 변환을 통해 조정합니다. 이는 아래의 공식에서 볼 수 있습니다:

위의 스케일링은 주어진 STAMP 테스트의 섹션에 대한 모든 가능한 스케일 점수가 소수점 없는 양수이며, 이는 일반적으로 IRT에서 볼 수 있는 -4에서 +4의 범위보다 훨씬 직관적입니다. 위 공식에서 볼 수 있는 선형 스케일링은 또한 스케일의 어느 지점에서든 두 스케일 점수 사이의 거리가 동일한 능력 차이를 나타낸다는 것을 보장합니다.

스케일드 점수의 해석

다음과 같은 학생들이 일본어 STAMP 4S 테스트의 청취 부분을 수행했다고 상상해보십시오:

  • 학생 A의 등급별 점수: 589
  • 학생 B의 정규화 점수: 612
  • Student C의 스케일 점수: 677
  • Student D의 스케일 점수: 700

학생 A학생 B의 일본어 듣기 능력 차이 (스케일 점수 23점)는 학생 C학생 D의 일본어 듣기 능력 차이 (23점)와 동일합니다. 두 학생이 일본어 듣기에서 같은 STAMP 레벨을 달성했지만 (예를 들어, STAMP 레벨 4 - 중급 낮음), 그 중 한 명이 다른 학생보다 스케일 점수가 20점 높다면, 점수가 높은 학생이 더 능숙하다고 확신할 수 있는 강력한 근거가 있습니다. 그들의 스케일 점수 차이가 클수록, 그 차이가 의미 있는 것이며 두 학생이 동등하게 능숙하지 않다는 것을 더 확신할 수 있습니다. 스케일 점수는 학생이 1년 동안 공부를 한 후에도 진전이 없어 같은 능력 레벨에 "멈춰" 있는 것처럼 보일 때도 유용할 수 있습니다. 1년 전의 스케일 점수와 현재의 스케일 점수를 비교하면, 다음 STAMP 레벨로 올라가기에 충분하지 않은 증가량이라도 그들의 능력에서 작은 증가를 보여줄 수 있습니다.

그러나 한 가지를 명심해야 합니다: 모든 평가에는 그 점수와 관련된 일정한 측정 오차 범위가 있습니다. 예를 들어, TOEFL iBT의 Listening 섹션에 대해 ETS가 보고한 표준 측정 오차(SEM)는 점수 범위가 0 - 30인 경우 2.38의 스케일 점수입니다 (Educational Testing Services, 2018). 차례로 SAT 섹션 점수의 경우, 점수 범위가 200 - 800인 경우 표준 측정 오차는 30점입니다 (College Board, 2018). 많은 다른 날에 각 학생을 평가하거나 수백 개의 테스트 항목을 걸쳐 평가하는 것이 실현 가능하지 않기 때문에, 모든 테스트 결과는 테스트를 본 특정 날에 테스트 응시자가 유지할 수 있었던 수준과 그들이 테스트 관리 중에 답한 특정 항목들에 대한 스냅샷입니다. 당연히, Reading과 Listening 섹션이 컴퓨터 적응형이며, 실시간으로 각 테스트 응시자의 추정 수준을 대상으로 하는 많은 항목을 포함하고, 엄격한 질적 및 양적 기준에 따라 개발된 테스트인 STAMP 4S는 측정 오차가 더 작고 더 효과적이며 효율적일 것입니다. 같은 엄격함을 따르지 않는 더 짧고, 비적응적인, 선형 테스트보다는 말이죠 (Schultz, Whitney, & Zickar, 2014). STAMP 테스트의 Reading과 Listening 섹션에서 스케일 점수의 평균 표준 측정 오차는 10 스케일 점수입니다. 이 통계는 Avant에서 사용하는 IRT 소프트웨어 유형에서 쉽게 도출할 수 있습니다.

The error of measurement associated with the STAMP scaled scores is quite small given the psychometric rigor and adaptive nature of our tests. Although we advise that test score analyses be performed primarily based on the STAMP level achieved, we at Avant suggest that scaled scores may be considered in very specific cases when higher-stake decisions are to be made based on STAMP test scores, such as when the STAMP scores are used to award State Seals of Biliteracy (SSB) or to award credit by exam (CBE). In such higher-stakes cases, if a test-taker’s scaled score in Reading or Listening happens to be within 10 points or less of the minimum scaled score that could qualify them for either the SSB or CBE, Avant’s position is that a school or district may, at their discretion, have such test-takers retake the STAMP test (given its adaptive nature, there is a good chance test takers will not see exactly the same items as in the previous administration). If on this second administration the test taker’s scaled score leads to a STAMP level that meets the requirements for either the SSB or CBE, Avant’s position is that the scores from this second administration may be used in place of the scores from the first administration.

위에서 논의한 두 가지 시나리오는 테스트의 작은 오차 범위를 고려할 가치가 있는 높은 위험 시나리오입니다 (모든 테스트에는 오차 범위가 있다는 것을 기억하세요).

우리는 일반적으로 연간 분석이나 학생들의 성장 및 프로그램 평가와 같은 전통적인 용도에 대해 STAMP 스케일 점수를 사용하는 것이 적절하다고 권장합니다.

현재 STAMP 평가를 위해 사용 가능한 스케일 점수 표를 보려면, 여기를 클릭하세요. 

참조: 

College Board (2018). SAT: 점수 이해하기. 다음에서 검색됨 https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

교육평가서비스 (2018). TOEFL iBT 점수의 신뢰성 및 비교 가능성. TOEFL 연구 인사이트 시리즈 (3권). 다음에서 검색: www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). 행동에서의 측정 이론. 사례 연구와 연습 (2판). 런던/뉴욕: Routledge. College Board (2018). SAT: 점수 이해하기. 다음에서 검색 https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

교육 테스트 서비스 (2018). TOEFL iBT 점수의 신뢰성과 비교 가능성. TOEFL 연구 인사이트 시리즈 (3권). 다음에서 검색: www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

Schultz, K. S., Whitney, D. J., & Zickar, M. J. (2014). 측정 이론의 실제. 사례 연구와 연습문제 (2판). 런던/뉴욕: Routledge.

업데이트됨:
1월