Abstract: Können wir Rankings vertrauen? Eine systematische Analyse biomedizinischer Challenges hinsichtlich Reporting und Design

Im Bereich der biomedizinischen Bildanalyse werden vermehrt offentliche Wettbewerbe (Challenges) durchgefuhrt, die den Vergleich von Methoden unter denselben Bedingungen ermoglichen. Ergebnisse aus solchen Challenges gewinnen zur Bewertung von Forschungsresultaten – z.B. im Reviewprozess von Publikationen– immer mehr an Bedeutung. Demgegenuber steht eine mangelnde Qualit atskontrolle im Challengedesign. Dieser Beitrag beruht auf der Hypothese, dass eine unzureichende Qualitatskontrolle zu einer geringen Aussagekraft der Challengeergebnisse fuhren kann. Basierend auf dem Validierungsprotokoll von Jannin et al. [1] wurden samtliche biomedizinischen Challenges des Kollektivs Grand Challenges in Biomedical Image Analysis“ [2] bis zum Jahr 2016 erfasst und systematisch analysiert. Wir prasentieren die Analyseergebnisse hinsichtlich der Vollstandigkeit des Reportings und des Einflusses verschiedener Entscheidungen im Challengedesign auf das finale Ranking der Teilnehmer. Unsere Analyse demonstriert die Notwendigkeit einer Qualitatskontrolle, welche dazu beitragen sollte, dass Rankings nachvollziehbar sowie reproduzierbar sind und die Aussagef ahigkeit erhoht wird.

[1]  Pierre Jannin,et al.  Model for defining and reporting reference-based validation protocols in medical image processing , 2006, International Journal of Computer Assisted Radiology and Surgery.