ما هو تحجيم النتيجة؟

عندما يقوم مطورو الاختبارات بتقديم نتائج الاختبارات للمستخدمين النهائيين (مديري المدارس، المعلمين، الأهل، الذين يؤدون الاختبار بأنفسهم، أو غيرهم من المستخدمين المحتملين للنتائج)، من الضروري أن يكون معنى الدرجات العددية المبلغ عنها واضحًا وسهل الاستخدام. إذا لم يكن الأمر كذلك، فما هو الهدف من درجات الاختبار؟

يمكن أن تأتي نتائج الاختبارات بأنواع مختلفة كثيرة.

على سبيل المثال، يتم الإبلاغ عن الدرجات في بعض الاختبارات من حيث العدد الصحيح أو النسبة المئوية الصحيحة. هذا النوع من التقارير مفيد في الحالات التي يخضع فيها كل من يؤدي الاختبار لنفس الاختبار بالضبط، كما في حالة الاختبارات الخطية ذات الشكل الثابت.

The Avant STAMP (STAndards-based Measurement of Proficiency) assessments, however, make use of more modern psychometric and test development approaches and are not linear tests. All STAMP Reading and Listening tests are computer-adaptive, meaning that the difficulty of the test adapts in real time to the estimated language ability of each test-taker. This results in more accurate measurement of test-takers’ language proficiency and provides for a more pleasant experience for test-takers than is normally the case with a linear test, since test-takers will not come across a large number of items substantially below or above their actual level of proficiency. This powerful test assembly and deployment approach is only possible by means of a psychometric technique called item-response-theory (IRT). In IRT, every single test item (a.k.a. test question) is associated with its own scientifically-measured difficulty level. In the case of STAMP, the difficulty level of each item on the test is calculated through an IRT analysis of the responses of hundreds (and in many cases, thousands) of representative test-takers. This allows us to calibrate the items in terms of their difficulty and to make sure that only the very best items are used in each STAMP test.     

يستخدم خوارزمية التسجيل STAMP أيضًا معلومات صعوبة هذا العنصر لحساب مستوى STAMP النهائي لكل متقدم للاختبار، استنادًا إلى العناصر التي حاولوا خلال الاختبار، وردودهم على كل عنصر، والقدرة التي يحتاجها المتقدمون للاختبار لإظهارها من أجل الحصول على الدرجة في كل من مستويات STAMP (يتم تحديد الأخير من خلال عملية تسمى تحديد القياس). لذا، بناءً على الطبيعة المتكيفة لتقييمات STAMP وبناءً على أن كل عنصر له مستوى إحصائي معين من الصعوبة المرتبط به، فإن الإبلاغ عن درجات STAMP من حيث العدد الصحيح (مثلا، 23 من أصل 30) أو النسبة المئوية الصحيحة (76.6%) ليس له معنى ولا يناسب.

كما سنناقش قريبًا، تشكل نظرية الاستجابة للبند (IRT)، التي تشكل الأساس الإحصائي لتطوير وتسجيل اختبارات Avant STAMP، مقياسًا للنتائج ليس سهل الفهم للمستخدمين النهائيين لاختبارات STAMP. على سبيل المثال، يحتوي مقياس IRT على قيم سلبية وإيجابية. إخبار الشخص الذي يؤدي الاختبار في تقرير نتيجته أن مستوى قراءته في اللغة الألمانية في اختبار STAMP 4S هو -1.4 لن يكون مفيدًا وسينتهك الشرط الخاص بالنتائج الواضحة والسهلة الاستخدام المناقشة أعلاه. لهذا السبب، من الضروري أن تتم تحويل قيم نتائج STAMP المستندة إلى IRT إلى مقياس نتائج أكثر معنى وسهولة في التفسير. المقياس في الأساس هو مجموعة من قيم القياس المحتملة ويتعين على مطوري الاختبارات اتخاذ قرار بشأن نقاط الإشارة لمقياس النتائج قبل أن يمكن الإبلاغ عن النتائج.

فهم نقاط الإشارة للمقياس

ثلاثة مقاييس قد يكون القراء على دراية بها هي مقاييس درجة الحرارة بالسلسيوس والفهرنهايت والكلفن. على الرغم من أن الثلاثة كلهم مقاييس لدرجة الحرارة، إلا أن نقاط المرجعية والتفسير تختلف بشكل كبير. يمكن تطبيق الأمر نفسه على المقاييس المختلفة المستخدمة لتقرير درجات اجادة اللغة.

في مقياس سيلسيوس، يشير الدرجة 0 ℃ إلى نقطة القياس التي يتجمد فيها الماء عند مستوى سطح البحر، بينما القيمة الدنيا الممكنة للقياس على مقياس سيلسيوس هي -273.15 ℃، وهي النقطة التي لا يوجد فيها أي نشاط جزيئي على الإطلاق في المادة. على مقياس فهرنهايت، من ناحية أخرى، نقطة القياس التي يتجمد فيها الماء عند مستوى سطح البحر هي 32 درجة فهرنهايت، ليست 0 درجة فهرنهايت. على مقياس فهرنهايت، يشير - 459.67 F إلى القيمة الدنيا الممكنة للقياس، عندما لا يوجد نشاط جزيئي في المادة. كما يمكننا أن نرى، في كلا من مقياسي سيلسيوس وفهرنهايت، لا يعني الصفر في الواقع غيابًا تامًا لشيء ما. إنه مجرد نقطة مرجعية تكتسب معناها فقط بالنسبة إلى المقياس الكامل وقيمه الممكنة والقابلة للتحقيق.

بالنسبة لمقاييس الحرارة، القياس الوحيد الذي لديه نقطة صفر حقيقية هو مقياس كلفن. في مقياس كلفن، نقطة القياس 0 ك تعني في الواقع عدم وجود أي نشاط جزيئي على الإطلاق، حيث يشير الصفر إلى القيمة الدنيا الممكنة في مقياس كلفن. في مقياس كلفن، لذا، القيم السلبية غير ممكنة، على عكس مقاييس سيلسيوس وفهرنهايت (وكما سنرى قريبا، مقياس IRT). جميع مقاييس الحرارة الثلاثة ليس لديها حد حقيقي لقيمها القصوى، حيث لا يوجد حد معروف لمدى سخونة شيء يمكن أن يكون.

الآن، هل يمكننا حقاً القول أن هناك مقياس أفضل من الآخر؟ ليس حقاً. الثلاثة مقاييس صالحة تماماً بحد ذاتها ومستخدمة على نطاق واسع في سياقات مختلفة، مع اعتبار بعض المقاييس أكثر ملاءمة من قبل المستخدمين بناءً على السياقات المحددة. الشيء الذي يجمع هذه المقاييس الثلاثة، والذي يجعلها مناسبة تماماً للقياس الدقيق، هو حقيقة أن المسافة بين أي نقطتين للقياس في المقياس تشير إلى نفس الفرق في درجة الحرارة. بمعنى آخر، الفرق في النشاط الجزيئي بين 35 ℃ و 37 ℃ هو بالضبط نفسه بين 89 ℃ و 91 ℃. هذه خاصية نعتقد في Avant أنها في قلب القياس الجيد، وبالتأكيد واحدة نستخدمها لنتائجنا STAMP.

رغم فائدة النظر إلى المقاييس الثلاثة المألوفة للحرارة أعلاه ورؤية مدى ملاءمتها في سياقاتها المحددة لقياس مفهوم مثل الحرارة، من المهم أن نفهم أن بعض الخصائص التي يمتلكونها تجعلهم غير مناسبين لقياس مفهوم مثل الكفاءة اللغوية. على سبيل المثال، سيكون من المستحيل تقريبًا شرح ماذا يعني الكفاءة اللغوية السلبية أو كيف يمكن لشخص أن يكون لديه صفر قدرة في لغة؛ حتى الشخص الذي لم يدرس أو يكن على اتصال بلغة معينة من قبل سيكون لديه بعض (على الرغم من أنها الحد الأدنى) المعرفة بالكلمات المستعارة على الأقل في تلك اللغة. لا يمكن لاختبار الكفاءة اللغوية أن يدعي أن شخصًا ما لديه صفر كفاءة لغوية، حيث سيكون من المستحيل لاختبار معين تقييم جميع السيناريوهات الممكنة التي قد يظهر فيها الشخص بعض الفهم، حتى لو كان أساسيًا جدًا، لكلمة أو عبارة في اللغة. جميع اختبارات اللغة مقيدة بالعناصر الموجودة في الاختبار وما يمكنها قياسه، مما يعني أن اختبارات اللغة قد لا تمتلك نقطة صفر للقياس، ولكن قد يكون لديها نقطة قياس دنيا، تمثل النقطة التي تحتها لا يمكن للاختبار أن يقدم أي مزاعم. الأمر نفسه ينطبق على النقطة القصوى للإشارة في اختبار؛ بغض النظر عن عدد العناصر التي يحتوي عليها الاختبار، فلن يكون قادرًا أبدًا على قياس كل كفاءة اللغة للفرد. وبالتالي، ستكون مقياس صالح لاختبار الكفاءة اللغوية مثل اختبارات STAMP لديها نقطة إشارة دنيا (تُستخدم للمتقدمين للاختبار الذين يجيبون بشكل غير صحيح على جميع العناصر التي رأوها في الاختبار)، ولا نقطة إشارة صفر، وستكون لديها نقطة إشارة قصوى (تُستخدم للمتقدمين للاختبار الذين يجيبون بشكل صحيح على جميع العناصر التي رأوها في الاختبار).

قياس IRT ونتائج STAMP

كما ذكر أعلاه، من المهم أن تشير الفترات المتساوية في المقياس المستخدم لتقديم النتائج في اختبار الكفاءة اللغوية إلى نفس الفرق في الكفاءة اللغوية. تم توافق جميع المستويات من اختبار STAMP (المستويات 1 - 9) مع مستويات معيار الكفاءة اللغوية الأمريكية (من المبتدئ الضعيف إلى المتقدم العالي)، كما يمكن مشاهدته أدناه:

Despite the alignment of the STAMP levels to these proficiency levels and despite the usefulness of the proficiency levels for indicating a test taker’s general level of ability in the language, the standards levels themselves do not conform to the type of numerical scaled scores we are looking for. Firstly, the meaning of the interval difference in the national proficiency standards (and therefore STAMP) levels is not the same regardless of the point on the scale. For example, it takes a higher amount of language ability to move from Intermediate High (STAMP level 6) to Advanced Low (STAMP level 7) than it does to move from Novice High (STAMP level 3) to Intermediate Low (STAMP level 4). For this very reason, the proficiency levels are depicted as an inverted pyramid, and not as a square or rectangle. Secondly, despite the usefulness of the proficiency levels for indicating where a certain language learner stands in terms of their language proficiency, students scoring at the same STAMP level may actually have slightly different abilities in the language and may have answered different numbers of items correctly in the STAMP test, even if they happened to have seen exactly the same items through the STAMP adaptive algorithm. Therefore, despite the important usefulness of the STAMP and national proficiency standards levels in understanding test-takers’ language proficiency, these levels are not as fine-grained as some end-users of our test scores would like them to be.

على سبيل المثال، قد يكون لدى المدرسة فقط عشرة مقاعد في قسم الشرف الخاص للقراءة باللغة الفرنسية. ماذا لو وصل أربعة عشر من الطلاب إلى مستوى STAMP 9 في القراءة؟ كيف يمكن للمدرسة اختيار 10 من بين 14 طالبًا للدراسة في القسم الشرفي؟ قد يعتبر اختيار عشرة بشكل عشوائي حلاً مقبولًا ولكننا في Avant Assessment يمكننا تقديم طريقة أفضل وأكثر دقة للمساعدة في هذه الحالة. كما ذكر أعلاه، تستخدم Avant Assessment تقنية قياس إحصائية تسمى نظرية استجابة البند لمعايرة جميع العناصر في أقسام القراءة والاستماع من اختبارات STAMP (المكيفة)، لمحاذاة عدد الأسئلة التي يجيب عليها الشخص الذي يختبر بشكل صحيح في مسار الاختبار الخاص به إلى مستويات STAMP وبالتالي مستويات المعايير الوطنية للكفاءة التي يتم محاذاتها، وأخيرًا، لإنتاج نتائج مقياسية توفر لمستخدمي النتائج قياسًا أكثر تفصيلًا لقدرة اللغة لكل شخص يختبر من الذي سيكون ممكنًا إذا كانت مستويات STAMP فقط هي التي سيتم الإبلاغ عنها.

تحجيم نتائج STAMP

بمجرد تقويم جميع العناصر في قسم معين من اختبار STAMP من خلال IRT، نحن قادرون على تعيين تقدير القدرة IRT (المشار إليه أيضًا بـ ثيتا في مصطلحات IRT) لكل طالب بناءً على العناصر التي أجابوا عليها بشكل صحيح أو خاطئ في المسار المحدد الذي اتبعوه في كل من أقسام القراءة والاستماع في اختبار STAMP الخاص بهم. بمجرد حصولنا على هذه القيمة، نحن قادرون بعد ذلك على مقياس هذه القيمة (ومن هنا جاء المصطلح، مقياس النتيجة) حتى نتمكن من الإبلاغ عن درجات أكثر دقة، من أجل تكملة التقرير عن مستوى STAMP المحقق. من خلال تحجيم درجات IRT، نحن قادرون بعد ذلك على ضمان أن جميع الدرجات المقاسة إيجابية (لا توجد قيم سلبية) وأن مستخدمي الدرجات، مثل المدرسة الفرنسية الافتراضية أعلاه، قادرون على التركيز أكثر على كفاءة الطلاب، حتى لو حصل الطلاب على نفس مستوى STAMP.

يجب تقييم كل من أقسام القراءة والاستماع في كل اختبار STAMP بشكل منفصل. ولذا، لا يمكن المقارنة المباشرة بين النتائج المقيمة لقراءة الإسبانية والنتائج المقيمة للاستماع بالإسبانية، أو مع النتائج المقيمة لقراءة الصينية. بعبارة أخرى، النتائج المقيمة لاختبار STAMP تعتمد على اللغة والقسم المحدد.

نقوم بتحويل درجات IRT في أقسام القراءة أو الاستماع في كل من اختباراتنا من خلال تحويل خطي بسيط، كما هو موضح في الصيغة أدناه:

التحجيم المذكور أعلاه يضمن أن جميع النتائج المقياسة الممكنة لقسم معين من اختبار STAMP هي أرقام موجبة بدون كسور عشرية، والتي هي أكثر بديهية من النتائج التي تتراوح من -4 إلى +4، والتي هي أكثر شيوعًا في IRT. التحجيم الخطي الموجود في الصيغة أعلاه يضمن أيضًا أن المسافة بين أي نتيجتين مقياسيتين تشير إلى نفس الفرق في القدرة في أي نقطة على المقياس.

تفسير النتائج المقياسة

تخيل أن لدينا الطلاب التاليين، الذين أجروا قسم الاستماع في اختبار اليابانية STAMP 4S:

  • الطالب أ النتيجة المعدلة: 589
  • الطالب B نتيجة مقياس: 612
  • الطالب C نتيجة معدلة: 677
  • الطالب D النتيجة المعدلة: 700

الفرق في الاستماع الياباني بين الطالب أ و الطالب ب باليابانية (23 نقطة مقياس) هو نفسه كالفرق في الاستماع الياباني بين الطالب ج و الطالب د (23 نقطة). إذا حقق طالبان نفس مستوى STAMP في الاستماع الياباني (على سبيل المثال، مستوى STAMP 4 - متوسط منخفض)، ولكن أحدهما حصل على درجة مقياس تزيد بمقدار 20 نقطة عن الآخر، لدينا دعم قوي للاعتقاد أن الطالب الذي حصل على الدرجة المقياس الأعلى هو أكثر اجادة من الطالب الذي حصل على الدرجة المقياس الأقل. كلما كان الفرق أكبر بين درجاتهم المقياس، يمكننا أن نكون أكثر ثقة بأن الفرق معنوي وأن الطالبين في الواقع ليسا متمكنين بالتساوي. يمكن أيضًا أن تكون الدرجات المقياس مفيدة في الحالات التي قد يبدو فيها الطالب كأنه لا يحرز تقدمًا بعد سنة من الدراسة ويظل "عالقًا" عند نفس مستوى الاجادة. قد تظهر المقارنة بين درجتهم المقياس منذ سنة ودرجتهم المقياس من الإدارة الحالية تحقيق مكاسب طفيفة في اجادتهم، حتى لو لم تكن هذه الزيادات كافية لنقلهم إلى المستوى STAMP التالي.

One thing should be kept in mind, however: all assessments have a certain margin of measurement error associated with their scores. For example, the standard error of measurement (SEM) reported by ETS for the Listening section of the TOEFL iBT, which uses a score scale ranging from 0 – 30 is 2.38 scaled points (Educational Testing Services, 2018). In turn, for the SAT section scores, with a score range of 200 – 800, the standard error of measurement is 30 points (College Board, 2018). Since it is not feasible to assess each student on many different days, and across hundreds of test items, every test result is a snapshot of the level a given test taker was able to sustain on that specific day that they took the test, and across the specific items they answered during their test administration. Naturally, a test such as the STAMP 4S, whose Reading and Listening sections are computer-adaptive, which includes a large number of items targeting each test-taker’s estimated level in real time, and which is developed to strict qualitative and quantitative standards, will tend to have a smaller error of measurement and be more effective and efficient than shorter, non-adaptive, linear tests that do not follow the same rigor (Schultz, Whitney, & Zickar, 2014).The average standard error of measurement for the scaled scores in the Reading and Listening sections of the STAMP tests is 10 scaled-score points. This statistic is easily derived from the type of IRT software we employ at Avant.

خطأ القياس المرتبط بالدرجات المقياسية لـ STAMP صغير جدًا بالنظر إلى الدقة السايكومترية والطبيعة التكيفية لاختباراتنا. على الرغم من أننا ننصح بأن يتم تنفيذ تحليلات الدرجات الاختبارية بشكل أساسي على أساس المستوى الذي تم تحقيقه في STAMP ، إلا أننا في Avant نقترح أن يمكن النظر في الدرجات المقياسية في حالات محددة جدًا عندما يتعين اتخاذ قرارات ذات مخاطر أعلى استنادًا إلى درجات اختبار STAMP ، مثل عند استخدام درجات STAMP لمنح ختم الدولة للثنائية اللغة (SSB) أو لمنح الائتمان عن طريق الاختبار (CBE). في مثل هذه الحالات ذات المخاطر العالية ، إذا كانت الدرجة المقياسية للشخص الذي يؤدي الاختبار في القراءة أو الاستماع تكون على بُعد 10 نقاط أو أقل من الدرجة المقياسية الدنيا التي يمكن أن تؤهلهم للحصول على SSB أو CBE ، فإن موقف Avant هو أن المدرسة أو المنطقة قد تتيح ، حسب تقديرها ، لمثل هؤلاء الأشخاص الذين يؤدون الاختبار إعادة اختبار STAMP (نظرًا لطبيعته التكيفية ، هناك فرصة جيدة أن الأشخاص الذين يؤدون الاختبار لن يروا بالضبط نفس العناصر كما في الإدارة السابقة). إذا كانت الدرجة المقياسية للشخص الذي يؤدي الاختبار في هذه الإدارة الثانية تؤدي إلى مستوى STAMP يفي بمتطلبات SSB أو CBE ، فإن موقف Avant هو أن الدرجات من هذه الإدارة الثانية يمكن استخدامها بدلاً من الدرجات من الإدارة الأولى.

السيناريوهات الاثنين المناقشة أعلاه هما سيناريوهات ذات مخاطر أعلى حيث قد يكون النظر في الهامش الصغير للخطأ في الاختبار مبررًا (تذكر أن جميع الاختبارات لديها هامش للخطأ).

نوصي بأنه من الأنسب عمومًا استخدام درجات STAMP المقياسية للاستخدامات التقليدية مثل التحليل السنوي المستمر أو نمو الطلاب ولتقييم البرنامج.

لرؤية جداول النقاط المقياسة المتاحة حاليًا لتقييمات STAMP، انقر هنا .

المراجع: 

مجلس الكليات (2018). SAT: فهم الدرجات. استُرجع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبار التعليمي (2018). الموثوقية والقابلية للمقارنة لنتائج اختبار TOEFL iBT. سلسلة البحوث TOEFL (المجلد 3). تم الاسترجاع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز، ك. س.، ويتني، د. ج.، & زيكار، م. ج. (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (الطبعة الثانية). لندن/نيويورك: روتليدج. المجلس الجامعي (2018). SAT: فهم النتائج. استرجع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبار التعليمي (2018). الموثوقية والقابلية للمقارنة لدرجات TOEFL iBT. سلسلة البحوث TOEFL Insight (المجلد 3). استُرجع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز، ك. س.، ويتني، د. ج.، وزيكار، م. ج. (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (الطبعة الثانية). لندن / نيويورك: روتليدج.

تم التحديث:
يناير