Niedrige Testmodellpassung als Resultat mangelnder Auswertungsobjektivität bei der Kodierung landesweiter Vergleichsarbeiten durch Lehrkräfte

ZusammenfassungBei landesweiten Vergleichsarbeiten wird die Auswertung der Test-Items von Lehrkräften auf Basis vorgegebener Manuale eigenständig durchgeführt. Inder vorliegenden Studie wird die Frage untersucht, ob mangelnde Auswertungsobjektivität (hier: mangelnde Manual-Treue) bei der Kodierung der Items durch die Lehrkräfte mit abweichenden Antwortmustern von Schüler-Lösungen in Bezug auf das bei Vergleichsarbeiten häufig verwendete Testmodell von Rasch (1980) einhergeht. Die Testhefte von Schulklassen mit niedriger und mit durchschnittlicher Modellpassung bei den nordrhein-westfälischen Vergleichsarbeiten in der achten Jahrgangsstufe im Fach Mathematik wurden von externen Beurteilern erneut ausgewertet und die Modellpassung und korrespondierende Schätzungen der Schülerkompetenzen dieser neuen Beurteilungen bestimmt. Die Ergebnisse verdeutlichen, dass (1) eine niedrige durchschnittliche Modellpassung dieser Schulklassen auf mangelnde Manual-Treue der Lehrkräfte zurückzuführen ist und dass (2) die Abweichungen im Vergleich zur manual-treuen Auswertung mit höheren mittleren Schülerkompetenzen einhergehen. Implikationen dieses Beurteilungseffektes für die Arbeit mit Vergleichsarbeiten in der Mathematik werden abschließend diskutiert.AbstractWith state-wide administered large-scale assessments of competencies students’ solutions of test items are independently coded by their teachers according to an instructions manual. The study at hand evaluates whether lack of conformity to the manual by the coding teacher goes along with aberrant responses in the psychometric model of Rasch (1980). Answer sheets of both low and average fitting classes from a state-wide administered large-scale assessment in the German state of Northrhine-Westfalia were re-analysed, and model fit was re-computed. Results show that (1) low fit is correlated with lack of conformity to the manual and that (2) higher scoring ability estimates were computed when being attributed to this lack of conformity. Concluding remarks are given for the work with large-scale assessments of competencies.

[1]  P. Birkel Beurteilungsübereinstimmung bei Mathematikarbeiten? , 2005 .

[2]  R. Meijer Person Fit and Criterion-Related Validity: An Extension of the Schmitt, Cortina, and Whitney Study , 1997 .

[3]  C. McCulloch,et al.  Generalized Linear Mixed Models , 2005 .

[4]  Thomas Eckes,et al.  Examining Rater Effects in TestDaF Writing and Speaking Performance Assessments: A Many-Facet Rasch Analysis , 2005 .

[5]  Julian Williams,et al.  Accounting for Aberrant Test Response Patterns Using Multilevel Models , 2007 .

[6]  Brady T. West,et al.  Linear Mixed Models: A Practical Guide Using Statistical Software , 2006 .

[7]  Klaas Sijtsma,et al.  A Method for Investigating the Intersection of Item Response Functions in Mokken's Nonparametric IRT Model , 1992 .

[8]  George Karabatsos,et al.  Comparing the Aberrant Response Detection Performance of Thirty-Six Person-Fit Statistics , 2003 .

[9]  Person‐fit: relationship with four personality tests in mathematics , 2009 .

[10]  Karlheinz Ingenkamp Lehrbuch der pädagogischen Diagnostik , 2007 .

[11]  D. Leutner,et al.  Landesweite Lernstandserhebungen zwischen Bildungsmonitoring und Individualdiagnostik , 2008 .

[12]  William T. Hoyt,et al.  Rater bias in psychological research: when is it a problem and what can we do about it? , 2000 .

[13]  Timo Leuders,et al.  Outcome standards and core curricula: a new orientation for mathematics teachers in Germany , 2005 .

[14]  Andreas Büchter,et al.  Methodische Überlegungen und empirische Analysen zur impliziten Standardsetzung durch zentrale Prüfungen , 2012 .

[15]  Jarrod D. Hadfield,et al.  MCMC methods for multi-response generalized linear mixed models , 2010 .

[16]  Gregory J. Cizek,et al.  Cheating on Tests : How To Do It, Detect It, and Prevent It , 1999 .

[17]  M. David Miller Time Allocation and Patterns of Item Response. , 1986 .

[18]  T. Husén,et al.  The International Encyclopedia of Education , 1994 .

[19]  Akihito Kamata,et al.  Item Analysis by the Hierarchical Generalized Linear Model. , 2001 .

[20]  Klaas Sijtsma,et al.  Methodology Review: Evaluating Person Fit , 2001 .

[21]  Nele McElvany,et al.  IGLU 2006 : Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich , 2007 .

[22]  F. Janssens,et al.  Effects and side effects of inspections and accountability in education: an overview of empirical studies , 2007 .

[23]  B. Christiansen,et al.  Task and Activity , 1986 .

[24]  Johannes Hartig,et al.  PISA 2009. Bilanz nach einem Jahrzehnt , 2010 .

[25]  From students’ achievement to the development of teaching: requirements for feedback in comparative tests , 2005 .

[26]  Rob R. Meijer,et al.  Trait Level Estimation for Nonfitting Response Vectors , 1997 .

[27]  Michael Otte,et al.  Perspectives on Mathematics Education , 1986 .

[28]  Gary D. Borich,et al.  Educational Testing and Measurement : Classroom Application and Practice , 1984 .

[29]  Steven D. Levitt,et al.  Catching Cheating Teachers: The Results of an Unusual Experiment in Implementing Theory , 2003 .

[30]  Abe D. Hofman,et al.  The estimation of item response models with the lmer function from the lme4 package in R , 2011 .

[31]  S. Rabe-Hesketh,et al.  Generalized Linear Mixed Models , 2010 .

[32]  O. Köller Bildungsstandards in Deutschland: Implikationen für die Qualitätssicherung und Unterrichtsqualität , 2009 .