نظره عامه
Accurate and reliable scores are essential in language proficiency testing. The Reading and Listening sections of STAMP are multiple-choice, which allows for automatic scoring. The Writing and Speaking allow open-ended responses, which involves human raters.
التسجيل التلقائي
تصنيف الإنسان
ولهذا السبب، يلتزم الموقع الإلكتروني Avant بالتأكد من أن دقة مقيمينا عالية قدر الإمكان.
For this reason, Avant is committed to making sure our rating accuracy and agreement between different raters are as high as possible.
A recent analysis of over 23,000 responses for Writing and Speaking ratings for five STAMP 4S languages (Arabic, Spanish, French, Simplified Chinese, and Russian) and three STAMP WS languages (Amharic, Haitian Creole, and Vietnamese) found that Avant’s raters demonstrated high scoring accuracy and inter-rater agreement , making the scores awarded in the Writing and Speaking sections of STAMP accurate and reliable for their intended purposes.
كيفية تقييم الكفاءة في الكتابة والمحادثة
The study examined the Writing and Speaking sections of STAMP, scored by trained raters using STAMP levels from 0 (No Proficiency) to 8 (Advanced-Mid).
Examinees respond to three real-world prompts, showcasing their skills. Certified raters independently score each response, backed by rigorous training and ongoing monitoring to ensure accuracy and consistency.
For 80% of responses, a single rater’s score is official. For the remaining 20%, at least two raters score the response, with a manager resolving disagreements. Raters work independently, ensuring unbiased results. The final Writing or Speaking scores seen in our reports reflects the highest level consistently demonstrated across at least two of the three prompts.
يوضح الرسم البياني أدناه هذه العملية:
كما هو موضح في الشكل 1، يتم تحديد المستوى الرسمي للممتحن من خلال أعلى مستوى يمكن أن يظهره الممتحن في إجابتين على الأقل من أصل ثلاث إجابات. على سبيل المثال، إذا حصل الممتحن على مستوى متوسط-متوسط في إجابته الأولى، ومستوى متوسط-عالي في إجابته الثانية، ومستوى متوسط-عالي في إجابته الثالثة، فإن مستوى اختباره النهائي هو المستوى الثالث (متوسط-عالي). وبدلاً من ذلك، إذا حصل على مستوى متوسط-منخفض للإجابة الأولى، ومستوى مبتدئ-عالي للإجابة الثانية، ومستوى متوسط-متوسط للإجابة الثالثة، فإن مستواه النهائي هو متوسط-منخفض، لأنه أعلى مستوى حصل عليه مرتين (في الإجابات الأولى والثالثة).
استخدام ثلاث مطالبات مستقلة في كل من قسمي الكتابة والتحدث في STAMP له فائدتان رئيسيتان:
- تغطية أوسع للمواضيع: يضمن تقييم الممتحنين عبر مواضيع مختلفة أن مستوى الكفاءة الممنوحة من المرجح أن يتم تعميمه على مواقف واقعية أخرى.
- الحد من تحيز المقيّمين: إلى جانب طريقة تسجيل الدرجات، يساعد استخدام مطالبات متعددة على تقليل التحيز المحتمل للتقييم من المقيّمين الفرديين.
بعد ذلك، سنناقش تعريفات الموثوقية والدقة.
الموثوقية مقابل الدقة
موثوقيه
تشير الموثوقية إلى اتساق القياس (باكمان وبالمر، 1996). وبعبارات بسيطة، فهي تعني مدى ثقتنا في أن درجات الاختبار ستبقى كما هي إذا أجرى الممتحَن الاختبار مرة أخرى في أوقات مختلفة أو إذا أجرى نسخاً مختلفة من الاختبار، بافتراض أن كفاءته لم تتغير.
على سبيل المثال، إذا حصل المُمتحَن على درجة متوسطة-منخفضة اليوم ودرجة متوسطة-متوسطة غداً دون أي تغيير في معرفته أو حالته الذهنية، فهذا يشير إلى أن الاختبار قد لا يكون موثوقاً للغاية. وبالمثل، إذا حصل المُمتحَن على درجة متقدم-متوسط-منخفض في نسخة من الاختبار، ودرجة متوسط-متوسط في نسخة أخرى، فهذا يشير إلى عدم وجود اتساق، مما يشير إلى وجود مشكلة في موثوقية الاختبار.
أحد العوامل التي تساهم في موثوقية الاختبار هو كيفية تسجيل درجاته. في اختبار STAMP، يتكون قسمي القراءة والاستماع من أسئلة متعددة الخيارات يتم تسجيلها تلقائياً بواسطة الحاسوب. وهذا يضمن أنه إذا قدم الممتحن نفس الإجابات في مناسبات مختلفة، فسوف يحصل دائماً على نفس الدرجة.
However, the Writing and Speaking sections involve scoring by human raters. This means that scores can vary depending on who rates the response. However, with well-trained raters, we expect score variations to be minimal, reducing the impact of leniency, strictness, or potential bias.
دقة
يتوقع الممتحنون أن تعكس درجاتهم فقط كفاءتهم في البنية التي يتم قياسها (في STAMP، الكفاءة في كل مجال من مجالات اللغة).
تشير الدقة إلى مدى تمثيل الدرجة الممنوحة للقدرة الحقيقية للممتحن. على سبيل المثال، إذا قدم الممتحن إجابة في المحادثة بمستوى متوسط-عالي ولكنه حصل على درجة متوسطة-منخفضة من مُصنَّفين اثنين، فإن الدرجة الممنوحة غير دقيقة. وحتى إذا قام مقيِّمان آخران بتعيين درجة متوسطة-منخفضة بعد شهرين، تظل الدرجة غير دقيقة، على الرغم من أنها موثوقة (لأنها ثابتة بين المُقيِّمين ومع مرور الوقت).
تقييم موثوقية ودقة درجات المقيّمين
عندما يتم تسجيل الإجابات من قبل مقيِّمين بشريين، كما في حالة STAMP، من المهم التأكد من أن الدرجات تعكس جودة الإجابة نفسها، وليس خصائص المُقيِّم. وبعبارة أخرى، يجب أن تعتمد الدرجات فقط على الكفاءة التي أظهرها الممتحن، وليس على تساهل المقيّم أو صرامته أو تحيزه.
غالبًا ما يستخدم مقدمو اختبارات اللغة الإحصاءات لإظهار مدى اختلاف الدرجات بناءً على المُقيّم. عادةً ما يتضمن ذلك مقارنة التقييمات من مقيّمين منفصلين على نفس الإجابة. من الناحية المثالية، يجب أن يتفق المقيّمون على أكبر قدر ممكن من الدرجات، مما يشير إلى عملية تسجيل درجات موثوقة.
However, reliability must also be accompanied by accuracy. Two raters may assign the same score, but both could be incorrect. In a well-developed test, the goal is for raters to consistently agree and be accurate in their scoring.
الاتفاق التام بين المقيّمين البشريين ليس واقعيًا دائمًا. على الرغم من التدريب والخبرة، قد يختلف حتى المقيّمون المؤهلون في بعض الأحيان - تمامًا مثل الأطباء أو المهندسين أو العلماء. الهدف هو تحقيق اتفاق عالٍ يمكن الدفاع عنه بالنظر إلى الاستخدام المقصود من الدرجات.
Below are the statistical measures we use at Avant to evaluate the quality of ratings provided by our raters. While many companies report only exact and adjacent agreement, we assess additional measures to get a comprehensive view of rating quality. The measures reported in this paper include:
الاتفاق الدقيق:
يتم الإبلاغ عن هذا المقياس كنسبة مئوية تشير إلى النسبة المئوية للأوقات التي يكون فيها المستوى الممنوح لإجابة معينة من قبل المقيّم 1 هو نفس المستوى الذي منحه المقيّم 2. على سبيل المثال، إذا منح المقيّم 1 المستوى 5 للإجابة من قبل المقيّم 1، ومنح المقيّم 2 أيضًا المستوى 5 لنفس الإجابة، فسيتم اعتبار ذلك حالة اتفاق تام. يقترح Feldt وBrennan (1989) أنه عند استخدام مقيّمين اثنين، يجب أن يكون هناك اتفاق تام بنسبة 80% على الأقل، مع اعتبار 70% مقبولة للاستخدام العملي.
يتم الإبلاغ عن هذا المقياس كنسبة مئوية توضح عدد المقيّمين 1 والمقيّم 2 اللذين قاما بتعيين نفس المستوى للإجابة عبر مجموعة البيانات بأكملها. على سبيل المثال، إذا قام كلا المقيّمين بتعيين المستوى 5 من STAMP لنفس الإجابة، فإن ذلك يعتبر حالة اتفاق تام. وفقًا ل Feldt and Brennan (1989)، يجب أن يكون الاتفاق التام 80% على الأقل، مع اعتبار 70% مقبولاً للاستخدام العملي.
This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below.
بالضبط + الاتفاقية المجاورة:
يتم الإبلاغ عن هذا المقياس كنسبة مئوية توضح عدد المرات التي قام فيها المقيّم 1 والمقيّم 2 بتعيين نفس المستوى أو مستوى مجاور للإجابة عبر مجموعة البيانات بأكملها.
على سبيل المثال، المستوى 5 من STAMP مجاور للمستوى 4 والمستوى 6. إذا قام المقيِّم 1 بتعيين المستوى 4 وقام المقيِّم 2 بتعيين المستوى 5، فإن هذا المقياس يُحتسب في هذا المقياس لأن المستويات متجاورة. وفقًا لغراهام وآخرون (2012)، عندما يحتوي مقياس التقييم على أكثر من 5-7 مستويات، كما هو الحال مع مقياس STAMP، يجب أن يكون الاتفاق الدقيق + المتجاور قريبًا من 90%.
This same measure can also be used to compare the score assigned by Rater 1 to the official score a response receives after being rated by at least two raters. This is the case employed in the Overview Chart below.
كابا مرجح تربيعي (QWK)
يقيس مقياس كوهين كابا (𝜅) الموثوقية بين مقيّمين اثنين مع الأخذ في الاعتبار إمكانية الاتفاق بالصدفة. على سبيل المثال، مع مقياس STAMP المكون من 9 نقاط (من المستوى 0 إلى المستوى 8)، هناك فرصة بنسبة 11.11% أن يتفق مقيمان على درجة ما بمحض الصدفة. في Avant، نستخدم أيضًا أوزانًا تربيعية عند حساب الكابا، مما يعني أنه يتم إعطاء عقوبات أعلى للتباينات الأكبر بين الدرجات. على سبيل المثال، يعتبر الفرق بين المستوى 3 والمستوى 7 من STAMP أكثر إشكالية من الفرق بين المستوى 3 والمستوى 4.
يوصي ويليامسون وآخرون (2012) بأن تكون قيمة كابا الموزونة تربيعيًا (QWK ) ≥ 0.70، بينما يشير فلايس (2003) إلى أن القيم التي تزيد عن 0.75 تشير إلى اتفاق ممتاز يتجاوز الصدفة. وتعني قيمة QWK التي تساوي 0 أن الاتفاق محض صدفة، بينما تشير القيمة 1 إلى اتفاق تام.
متوسط الفرق الموحد (SMD)
يوضح هذا المقياس مدى تشابه استخدام مقيّمين اثنين لمقياس تقييم. وهو يقارن الفرق في متوسط مجموعتين من الدرجات (المقيّم 1 مقابل المقيّم 2)، مع توحيدها حسب الانحراف المعياري المجمع لتلك الدرجات. من الناحية المثالية، يجب ألا يفضل أي من المقيّمين أو يتجنب مستويات معينة على المقياس (على سبيل المثال، تجنب الدرجة 0 أو الدرجة 8). وبعبارة أخرى، يجب أن يستخدم كلا المقيِّمين النطاق الكامل للمقياس(STAMP 0 - STAMP 8)، مع إعطاء درجات تعكس الكفاءة التي تظهر في الاستجابة. القيمة الموصى بها لهذا المقياس هي ≤ 0.15 (Williamson et al., 2012)، مما يشير إلى أن توزيعات مجموعتي الدرجات متشابهة بشكل مقبول.
ارتباط ترتيب رتبة سبيرمان (ρ)
يشير هذا المقياس إلى قوة الارتباط بين متغيرين: مستوى STAMP الذي تم تعيينه من قبل المقيِّم 1 والمستوى الذي تم تعيينه من قبل المقيِّم 2. إذا كان المقيّمون مدربون جيدًا ويفهمون قاعدة التقييم، فإننا نتوقع أن يقوم كلا المقيّمين بتعيين مستويات متشابهة - مما يعني أن الدرجات يجب أن تتحرك معًا. وبعبارة أخرى، عندما يقوم المقيِّم 1 بتعيين مستوى عالٍ، ينبغي أن يقوم المقيِّم 2 بتعيين مستوى عالٍ أيضًا، مما يعكس تقييمًا متسقًا لنفس البناء.
نستخدم معامل ارتباط الرتب لسبيرمان بدلاً من معامل بيرسون لأن معامل سبيرمان هو الأنسب للبيانات الترتيبية، مثل مستويات الكفاءة في برنامج STAMP. ويُعتبر معامل الارتباط الذي يبلغ 0.80 أو أعلى قويًا في معظم المجالات (أكوغلو، 2018).
2 مستويات الطوابع على حدة
يُظهر هذا المقياس، الذي يتم التعبير عنه كنسبة مئوية، عدد المرات التي يختلف فيها تقييمان لنفس الإجابة بمقدار مستويين من مستويات STAMP (على سبيل المثال، يعيّن المقيّم 1 المستوى 4 من STAMP ويحدد المقيّم 2 المستوى 6 من STAMP).
إحصائيات النقاط التفصيلية
نركز الآن على جودة تصنيفات قسمي الكتابة والمحادثة في STAMP 4S و STAMP WS، مع الأخذ في الاعتبار الإحصائيات المذكورة أعلاه عبر عدة لغات تمثيلية. فيما يلي، نعرض النتائج بناءً على مجموعتين مختلفتين من المقارنات:
راتر 1 مقابل راتر 2
نقارن مستوى STAMP الذي منحه المقيّم 1 بالمستوى الذي منحه المقيّم 2 عبر العديد من الردود التي تم تقييمها من قبل مقيّمين اثنين على الأقل. تدعم هذه المقارنة موثوقية التقييمات من مقيِّمين اثنين تم تعيينهما عشوائيًا Avant عشوائيًا. كما ذكرنا سابقًا، قد يتفق مقيمان على درجة ما، ولكن قد يكون كلاهما غير صحيح. لذلك، لا نقوم بتضمين مقاييس الاتفاق الدقيق بين المقيّمين 1 والمقيّمين 2. بدلاً من ذلك، نركز بدلاً من ذلك على الاتفاق الدقيق + الاتفاق المتجاور ونبلغ عن مقاييس الدقة التي تقارن الدرجات من المقيّم 1 (الذي يقيم منفردًا بنسبة 80% من الوقت) مع الدرجات الرسمية.
راتر 1 مقابل النتيجة الرسمية
لتقييم دقة المستويات التي حددها المقيّمونAvant ، نقوم بتحليل الحالات التي تم فيها تقييم استجابة ما من قبل مقيّمين اثنين أو أكثر. نقارن الدرجة الرسمية (المستمدة من جميع التقييمات الفردية) بالدرجة التي منحها المقيّم 1 وحده. يساعد ذلك في الإشارة إلى مدى دقة تقييم الاستجابة عند مشاركة مقيِّم واحد فقط، وهو ما يحدث في 80% من الوقت.
يعرض الجدولان 1 و2 المقاييس الإحصائية لقسمي الكتابة والمحادثة لخمس لغات تمثيلية من STAMP 4S.
Table 1 – Writing Score Accuracy (STAMP 4S)
التدبير | العربية | الإسبانية | الفرنسية | الصينية المبسطة | الروسية |
---|---|---|---|---|---|
عدد الردود في مجموعة البيانات | n = 3,703 | n = 4,758 | n = 4,785 | n = 4,766 | n = 3,536 |
Exact Agreement (Rater 1 vs. Official Score) | (84.8%) | (84.15%) | (83.66%) | (88.46%) | (92.17%) |
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 96.78% (98.62%) | 99.09% (99.79%) | 99.22% (99.79%) | 99.79% (99.91%) | 99.71% (99.88%) |
Quadratic Weight Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.93 (0.96) | 0.91 (0.95) | 0.91 (0.95) | 0.95 (0.96) | 0.95 (0.97) |
Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00 (0.01) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.00) |
Spearman’s Rank-Order Correlation ®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.94 (0.96) | 0.90 (0.95) | 0.91 (0.95) | 0.95 (0.97) | 0.94 (0.97) |
2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 2.80% (1.24%) | 0.90% (0.20%) | 0.77% (0.20%) | 0.00% (0.00%) | 0.28% (0.11%) |
Table 2 – Speaking Score Accuracy (STAMP 4S)
التدبير | العربية | الإسبانية | الفرنسية | الصينية المبسطة | الروسية |
---|---|---|---|---|---|
عدد الردود في مجموعة البيانات | n = 3,363 | n = 4,078 | n = 4,530 | n = 4,651 | n = 3,392 |
Exact Agreement (Rater 1 vs. Official Score) | (84.96%) | (80.37%) | (80.19%) | (82.24%) | (88.30%) |
Exact + Adjacent Agreement: Rater 1 vs. Rater (Rater 1 vs. Official Score) | 96.07% (98.13%) | 98.13% (99.29%) | 98.54% (99.47%) | 99.31% (99.76%) | 98.99% (99.94%) |
Quadratic Weight Kappa (QWK): Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.92 (0.95) | 0.92 (0.96) | 0.91 (0.95) | 0.94 (0.95) | 0.92 (0.96) |
Standardized Mean Difference (SMD): Rater 1 vs. Rater 2 (Rater 1 vs. Official ) | -0.02 (0.01) | 0.00 (0.00) | -0.01 (0.02) | 0.00 (0.00) | -0.01 (-0.01) |
Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.93 (0.96) | 0.91 (0.95) | 0.92 (0.95) | 0.94 (0.96) | 0.91 (0.95) |
2 STAMP Levels Apart: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 3.27% (1.42%) | 1.74% (0.00%) | 1.39% (0.00%) | 0.00% (0.00%) | 1.01% (0.00%) |
يوضح الجدولان 3 و4 المقاييس الإحصائية لقسمي الكتابة والمحادثة لثلاث لغات تمثيلية من لغات STAMP WS.
الجدول 3 دقة درجة الكتابة (STAMP WS)
التدبير | الأمهرية | هايتي | الفيتنامية |
---|---|---|---|
عدد الردود في مجموعة البيانات | n = 209 | n = 125 | n = 1,542 |
Exact Agreement (Rater 1 vs. Official Score) | 95.79% | 94.69% | 94.38% |
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 99.52% (100%) | 97.60% (100%) | 98.57% (99.02%) |
Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.98 (0.99) | 0.97 (0.99) | 0.96 (0.97) |
Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | -0.01 (0.00) | 0.02 (-0.02) | -0.01 (0.01) |
Spearman’s Rank-Order Correlation®: Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.98 (0.99) | 0.97 (0.99) | 0.97 (0.98) |
2 STAMP Levels Apart Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00% (0.00%) | 2.40% (0.00%) | 0.00% (0.00%) |

الجدول 4 دقة درجة التحدث (STAMP WS)
التدبير | الأمهرية | هايتي | الفيتنامية |
---|---|---|---|
عدد الردود في مجموعة البيانات | n = 225 | n = 132 | n = 1,180 |
Exact Agreement (Rater 1 vs. Official Score) | (96.21%) | (97.91%) | (97.01%) |
Exact + Adjacent Agreement Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 100% (100%) | 100% (100%) | 99.83% (99.83%) |
Quadratic Weighted Kappa (QWK) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.99 (0.99) | 0.99 (0.99) | 0.99 (0.98) |
Standardized Mean Difference (SMD) Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.00 (0.00) | 0.00 (0.00) | 0.00 (0.01) |
Spearman’s Rank-Order Correlation® Rater 1 vs. Rater 2 (Rater 1 vs. Official Score) | 0.99 (0.99) | 0.99 (0.99) | 0.98 (0.99) |
2 مستويات STAMP منفصلة (مقيم 1 مقابل مقيم 2 / مقيم 1 مقابل النتيجة الرسمية) | 0.00% (0.00%) | 0.00% (0.00%) | 0.00% (0.00%) |

مناقشة
A high level of reliability and accuracy is fundamental to the validity of test scores and their intended uses. What is deemed minimally acceptable in terms of reliability and accuracy will however, depend on the specific field (medicine, law, sports, forensics, language testing, etc), as well as on the consequences of awarding an inaccurate level to a specific examinee’s set of responses, and on the rating scale itself. For example, agreement will tend to be lower the higher the number of categories available in a rating scale. In other words, more disagreement between any two raters can be expected if they must assign one of ten possible levels to a response than if they must assign one of only four possible levels.
تُظهر الإحصائيات الواردة أعلاه لقسمي الكتابة والمحادثة في كل من STAMP 4S و STAMP WS مستوى عالٍ من الموثوقية (درجات المقيّم 1 مقابل درجات المقيّم 2) والدقة (درجات المقيّم 1 مقابل الدرجات الرسمية).
من بين اللغات الثماني التي تم تقييمها، كانت الموثوقية التي أظهرها الاتفاق الدقيق + التجاور بين المقيّم 1 والمقيّم 2 دائمًا في الحد الأدنى (وغالبًا ما تكون أعلى بكثير) بنسبة 96.78% للكتابة و96.07% للمحادثة.
بالإضافة إلى ذلك، نادرًا ما لوحظت الحالات التي كان فيها اختلاف التقييمات من قبل مقيّمين اثنين عن بعضهما البعض بأكثر من مستويين من مستويات STAMP. إن مستوى الدقة لجميع اللغات الثماني، الذي يظهر من خلال إحصائيات الاتفاق الدقيق بين درجة المقيّم 1 والدرجة الرسمية لكل إجابة كان دائمًا عند حد أدنى 83.66% (ولكن غالبًا ما يكون أعلى بكثير) للكتابة و80.19% للمحادثة، مع وجود اتفاق دقيق + اتفاق متجاور دائمًا عند حد أدنى 98.62% للكتابة و98.13% للمحادثة. تُظهر قيم الكابا المرجحة التربيعية (QWK) مستوى عالٍ جدًا من الاتفاق بين كل من المقيّمين 1 والمقيّمين 2 وبين المقيّمين 1 والمقيّمين 2، بينما تبين أن الارتباط بين درجات المقيّمين 1 والمقيّمين 2، وكذلك بين درجات المقيّمين 1 والمقيّمين الرسميين مرتفع جدًا. أخيرًا، تُظهر معاملات متوسط الفروق المعيارية (SMD) أن مقياس STAMP يُستخدم بطريقة متشابهة جدًا من قبل Avant المقيّمين.
تقدم الإحصائيات أعلاه دليلاً على الجودة العالية لبرنامج اختيار المقيّمين وتدريبهم في Avant التقييم ومنهجيتنا في تحديد المقيّمين التشغيليين الذين قد يحتاجون إلى استبعادهم مؤقتًا من مجموعة المقيّمين وإعطائهم تدريبًا موجهًا. يُظهر أنه عندما يختلف أي مقيِّمين اثنين في مستوى مصحِّحَين في مستوى مصحِّح الاختبار الذي تم تعيينه للإجابة، نادرًا ما يكون الاختلاف أكثر من مستوى واحد من مستويات مصحِّح الاختبار، حيث يقوم كلا المقيِّمين بتعيين نفس المستوى بالضبط في الغالبية العظمى من الحالات. بالإضافة إلى حقيقة أن الدرجة النهائية الرسمية النهائية للممتحن في قسم الكتابة أو المحادثة من STAMP تستند إلى درجات STAMP الفردية في ثلاثة مطالبات مستقلة.
تقدم النتائج الواردة هنا دليلاً قوياً على أنه يمكن الوثوق بالدرجة النهائية التي حصل عليها الممتحن في قسمي الكتابة والمحادثة في اختبار STAMP لتكون تمثيلاً موثوقاً ودقيقاً لمستوى إتقان اللغة في هذين المجالين.
مراجع
أكوغلو، ه. (2018). دليل المستخدم لمعاملات الارتباط. المجلة التركية لطب الطوارئ، 18(3)، 91-93.
Bachman, L. F., & Palmer, A. S. (1996). اختبار اللغة في الممارسة العملية: تصميم وتطوير اختبارات لغوية مفيدة (المجلد 1). مطبعة جامعة أكسفورد.
Feldt, L. S., & Brennan, R. (1989). الموثوقية. في R. L. Linn (Ed.)، القياس التربوي (الطبعة الثالثة، ص 105-146). نيويورك: Macmillan.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). الطرق الإحصائية للمعدلات والنسب. 3rd ed. Wiley.
Graham, M., Milanowski, A., & Miller, J. (2012). قياس وتعزيز الاتفاق بين المراجعين
تقييمات أداء المعلم ومدير المدرسة.
مصفوفة التعليم (2022). المهارات العملية للفيزياء الجزء 2: صحة التجارب وموثوقيتها ودقتها. تم الاسترجاع في 11 أغسطس 2022 (انقر هنا للذهاب إلى المصدر).
Williamson, D. M., Xi, X., & Breyer, F. J. (2012). إطار عمل لتقييم واستخدام التسجيل الآلي
. القياس التربوي: القضايا والممارسة، 31(1)، 2-13.