Teksten beoordelen met criterialijsten of via paarsgewijze vergelijking: een afweging van betrouwbaarheid en tijdsinvestering

Tekstkwaliteit betrouwbaar beoordelen zonder daar veel tijd aan te besteden is cruciaal voor zowel schrijfonderzoekers als de onderwijspraktijk. In deze studie namen we twee beoordelingsmethoden onder de loep: criterialijsten, die analytisch en absoluut van insteek zijn, en paarsgewijze vergelijking, een methode met een holistische en vergelijkende opzet. Voor beide methoden brachten we in kaart hoe lang een beoordeling per tekst duurde en hoe de betrouwbaarheid veranderde naarmate de groep van beoordelaars meer tijd investeerde in het beoordelen. Uit de resultaten bleek dat voor beide methoden de benodigde tijd afnam naarmate een beoordelaar al (meerdere) beoordelingen had gemaakt. De resultaten lieten ook zien dat wanneer betrouwbaarheid opgevat wordt als een maat voor de stabiliteit van de rangorde, beide methoden een vergelijkbare tijdsinvestering vragen. Vervolgonderzoek moet uitwijzen welke methode meer tijd vraagt wanneer rekening gehouden wordt met de tijd die nodig is om een criterialijst te ontwikkelen of om een evaluatie met behulp van paarsgewijze vergelijking op te zetten. Daarnaast moet toekomstig onderzoek uitwijzen of de conclusies uit dit onderzoek ook gelden voor andere teksten en andere criterialijsten.

[1]  Sara Cushing Weigle,et al.  Investigating rater/prompt interactions in writing assessment: Quantitative and qualitative approaches , 1999 .

[2]  D. van Weijen,et al.  Writing processes, text quality, and task effects; empirical studies in first and second language writing , 2009 .

[3]  A. Pollitt The method of Adaptive Comparative Judgement , 2012 .

[4]  Alastair Pollitt,et al.  Comparative judgement for assessment , 2012 .

[5]  P. Yeates,et al.  ‘You're certainly relatively competent’: assessor bias due to recent experiences , 2013, Medical education.

[6]  Ali Reza Rezaei,et al.  Reliability and validity of rubrics for assessment through writing , 2010 .

[7]  William McColly,et al.  What Does Educational Research Say about the Judging of Writing Ability , 1970 .

[8]  Rob Schoonen,et al.  Generalizability of writing scores: an application of structural equation modeling , 2005 .

[9]  M. Inglis,et al.  The problem of assessing problem solving: can comparative judgement help? , 2015 .

[10]  Steven E. Stemler Practical Assessment, Research, and Evaluation Practical Assessment, Research, and Evaluation A Comparison of Consensus, Consistency, and Measurement A Comparison of Consensus, Consistency, and Measurement Approaches to Estimating Interrater Reliability Approaches to Estimating Interrater Reliabilit , 2022 .

[11]  T. Lumley Assessment criteria in a large-scale writing test: what do they really mean to the raters? , 2002 .

[12]  D. Royce Sadler,et al.  Indeterminacy in the use of preset criteria for assessment and grading , 2009 .

[13]  Vincent Donche,et al.  Validity of comparative judgement to assess academic writing: examining implications of its holistic character and building on a shared consensus , 2016 .

[14]  Sven De Maeyer,et al.  Comparative Judgement as a Promising Alternative to Score Competences , 2017 .

[15]  Ian Jones,et al.  A comparative judgement approach to teacher assessment , 2015 .

[16]  Ian Jones,et al.  ASSESSING MATHEMATICAL PROBLEM SOLVING USING COMPARATIVE JUDGEMENT , 2015 .

[17]  Ian Jones,et al.  Peer assessment without assessment criteria , 2014 .

[18]  J. Fleiss,et al.  Intraclass correlations: uses in assessing rater reliability. , 1979, Psychological bulletin.

[19]  Anders Jonsson,et al.  The use of scoring rubrics: Reliability, validity, and educational consequences , 2007 .