Die Open-Science-Prinzipien helfen, die Wahrscheinlichkeit von falschen Ergebnissen zu reduzieren

Anne-Laure Boulesteix über Statistik und ihre Open-Science-Erfahrungen

Die drei wesentlichen Learnings:

Benchmarking-Studien oder Vergleichsstudien können Guidance zur Wahl der richtigen Methode geben.
Wenn man seine Mikroentscheidungen bei der Arbeit mit Daten möglichst ergebnisblind trifft, kommt man nicht in die Versuchung, nach Signifikanzen zu suchen.
Um das Verhalten von verschiedenen Methoden im Vorfeld besser beurteilen zu können, kann eine kleine Simulationsstudie sinnvoll sein, angelehnt an die realen Daten.

Wie wahrscheinlich ist es, dass veröffentlichte Forschungsergebnisse wahr sind?

ALB: Dazu fällt mir natürlich als erstes das Paper „Why Most Published Research Findings Are False“ von John Ioannidis ein. Er hat eine Art Modell vorgeschlagen, das den Anteil an wahren bzw. falschen Ergebnissen anhand von verschiedenen Parametern modelliert. Die Ergebnisse deuten an, dass der Anteil hoch sein könnte. Dieses Paper ist aber auch umstritten. Dennoch glaube ich, auch angesichts empirischer Studien in wissenschaftlichen Bereichen, die das belegen, dass ein nicht unwesentlicher Teil der veröffentlichten Ergebnisse falsch ist.

Wie wahrscheinlich das genau ist, kann man nicht an einer Zahl festmachen, da das von ganz verschiedenen Parametern abhängt. Es gibt Bereiche, in denen lauter seltsame Hypothesen getestet werden. Da gibt es natürlich ein höheres Risiko, dass sich diese Hypothesen nicht bestätigen und dass das Ergebnis dann falsch ist. In anderen Bereichen sind die Hypothesen plausibler. Hier ist es dann wahrscheinlicher, dass die Ergebnisse richtig sind. Es hängt aber auch davon ab, wie flexibel die Analysedesigns waren. In den wissenschaftlichen Bereichen, wo es üblich ist, sich von vornherein auf ein bestimmtes (Auswertungs-) Design festzulegen, ist es wahrscheinlicher, dass die Ergebnisse auch wahr sind. Anders als in den Bereichen, wo es eher üblich ist, dass ganz viele Auswertungsstrategien probiert, um dann am Ende diejenige auszuwählen, die einem am besten passt, weil das Ergebnis einfach schön ist. Wenn so was passiert, dann ist das Risiko, dass die veröffentlichten Ergebnisse falsch sind, eher hoch. Das hängt ja wirklich von dem Kontext und von der Fachkultur ab, aber auch von dem Wissenschaftler bzw. der Wissenschaftlerin selbst. Und da helfen natürlich die Open-Science-Prinzipien, die Wahrscheinlichkeit von falschen Ergebnissen zu reduzieren.

Seit einigen Jahren gibt es in der Wirtschaftsforschung Diskussionen rund um das Thema Replikationskrise. Wie kann diese Krise gelöst werden? Reicht es aus, seine Forschungsmaterialien, Codes, Daten usw. transparent zur Verfügung zu stellen?

ALB: Leider gibt es kein universelles Mittel, das die ganzen Probleme auf einmal lösen wird. Ich sehe es eher als eine Sammlung von verschiedenen Ideen und Prinzipien, die vielleicht Schritt für Schritt die Situation verbessern werden, mittel- bis langfristig. Trotzdem kann ich einige Aspekte nennen, die sehr wichtig sind und dazu beitragen können. Es geht um Reproduzierbarkeit und Replizierbarkeit. Es gibt hier tatsächlich einen Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit, wobei die Terminologie auch nicht immer konsequent in der Literatur benutzt wird.

Können Sie den Unterschied zwischen Reproduzierbarkeit und Replizierbarkeit kurz erklären?

ALB: Reproduzierbarkeit heißt, dass die Autor:innen einer Studie den Code und die Daten zur Verfügung stellen, so dass man sozusagen per Mausklick die ganzen Ergebnisse samt Tabellen, Grafiken und allem wiederholen kann, und zwar haargenau auf die Kommastelle. Um das zu gewährleisten, gibt es nicht so viele Mittel, sondern man muss Code und Daten zur Verfügung stellen und zwar in einer nachhaltigen Form. Also so, dass das in zwei Jahren immer noch geht. Reproduzierbarkeit ist etwas überschaubarer im Vergleich. Bei der Replizierbarkeit hingegen geht es darum, ähnliche oder kompatible Ergebnisse zu bekommen, wenn man die Studie mit anderen Daten wiederholt. Man erhebt wieder Daten und kommt zu einem ähnlichen Ergebnis. Es ist nicht so einfach zu definieren, es gibt ganze metawissenschaftliche Papers dazu. Salopp würde ich sagen: Das Fazit bleibt das gleiche, wenn man die Studie mit anderen Daten wiederholt. Um das zu gewährleisten, gibt es verschiedene Faktoren. Es gibt Aspekte, die gar nichts mit Statistik zu tun haben: wenn ich zum Beispiel eine Laborstudie mache, muss ich bestimmten Protokollen folgen, und wenn ich das nicht tue, dann sind meine Experimente nicht replizierbar.

Welche statistischen Aspekte gibt es?

ALB: Es gibt viele Lösungsansätze, um die Replizierbarkeit zu erhöhen. Man kann zum Beispiel Messfehler durch präzisere Messungen reduzieren oder die Fallzahl erhöhen. Es ist relativ selbstverständlich, denke ich, dass das hilft. Die Reproduzierbarkeit hilft auch zur Replizierbarkeit, weil das Fehlerrisiko durch die Zurverfügungstellung von Code und Daten reduziert werden kann. So können auch andere Personen, oder die Autor:innen selbst, noch vor der Veröffentlichung potentielle Probleme entdecken. Das wiederum erhöht die Qualität und gibt den Forschenden die Möglichkeit, zu korrigieren. Deswegen ist Reproduzierbarkeit auch ein wichtiger Schritt für mehr Replizierbarkeit. Aber es gibt auch viele andere Aspekte, und die haben mit der Multiplizität der Analysestrategien zu tun. Wenn man, um es einmal vereinfacht auszudrücken, alles Mögliche „rumprobiert“ und sich dann auf ein Ergebnis fokussiert, das gerade an der Grenze der Signifikanz war, dann ist es viel weniger wahrscheinlich, dass dieses Ergebnis repliziert wird. Das Ergebnis, das man so erhält, ist in vielen Fällen das Ergebnis von zufälligen Schwankungen. Und wenn es zufällige Schwankungen sind, kann es nicht repliziert werden. Manchmal wird dieser Freiheitsgrad der Datenanalyse ausgenutzt, um die Ergebnisse schöner aussehen zu lassen, als sie eigentlich sind. Das trägt definitiv zu fehlender Replizierbarkeit bei und das ist ein wichtiger Aspekt, der sehr wohl mit Statistik zu tun hat.

Was kann man dagegen machen?

ALB: Man kann sich in manchen Fällen von vornherein auf eine Analysestrategie festlegen und das auch in einem Protokoll festhalten, vielleicht die Studie präregistrieren. Dann ist es nämlich nicht mehr möglich, einfach so herumzuprobieren. Das ist ein wichtiger Weg, der aber nicht unbedingt kompatibel mit allen Studientypen ist. Bei explorativen Studien ist sowas schwieriger. Aber explorative Forschung sollte auch möglich sein. Eine Möglichkeit ist, zu sagen, dass ich die Multiplizität in meiner Studie nicht so gut reduzieren kann, ich sie aber transparent darlegen werde. Statt also ein Ergebnis herauszufischen, taucht in der Studie dann eine ganze Spanne an Ergebnissen auf, damit die Leser:innen sehen können, dass man unterschiedliche Ergebnisse erhält – je nachdem wie man es macht. Dann ist das transparent.

Wäre es aus Ihrer Sicht legitim, eine explorative Vorstudie zu machen und nach Rosinen zu suchen, um anschließend meine Hypothese zu ändern und nur dieses isolierte Phänomen mit einem großen Datensatz zu untersuchen, wenn ich es denn transparent mache?

ALB: Das ist tatsächlich ein gesunder Kompromiss. Die Reduktion der Multiplizität macht man in diesem Fall erst im zweiten Schritt und im ersten Schritt erlaubt man sich, eben vieles auszuprobieren. Das wäre so eine Art interne Validierung. Man würde eine erste Studie machen, die eher explorativ ist und dann eine konfirmatorische Studie innerhalb der Studie. Man kann dieses Vorgehen, welches Sie vorgeschlagen haben, auch mit den eigenen Daten machen. Man teilt dann die eigenen Daten. Einen Teil benutzt man für die explorative Studie, um eine Hypothese zu generieren und eine Analysestrategie festzulegen, den anderen Teil nimmt man, um diese Hypothese zu bestätigen. Der Preis ist natürlich, dass man für jede dieser zwei „Phasen“ dann nur einen kleineren Datensatz zur Verfügung hat.

Was halten Sie von sogenannten Crowdsourcing-Ansätzen? Also man hat eine Forschungsfrage, ein genaues Forschungsdesign und verlagert den Auftrag in befreundete Forschungsgruppen.

ALB: Also das finde ich grundsätzlich sehr interessant und faszinierend. Die ersten Crowdsourcing-Experimente, die gemacht wurden, haben auch sehr stark zum Bewusstsein der Multiplizität der Analysestrategie beigetragen und gezeigt, wie irritierend das für die Wissenschaft ist. Eine Crowdsourcing-Analyse erlaubt, die gesamte Multiplizität wirklich zu sehen. Die Analysen sind meistens noch diverser, als wenn nur ein Wissenschaftler oder ein Team sagen würde „Okay, ich probiere jetzt das oder das aus“. Wenn es genug Teams sind, kann man mit diesem Crowdsourcing-Experiment ein vollständiges Bild von der Diversität der möglichen Analysestrategien erhalten. Da stellt sich natürlich die Frage, wie man das zusammenfasst. Ist der Zweck des Experiments nur, diese Diversität zu sehen, zu belegen und das Bewusstsein zu erhöhen oder will man die Forschungsfragen beantworten? Wenn man die Forschungsfragen beantworten will, dann sollte man sich Gedanken machen, wie man aus dieser Vielfalt eine Zusammenfassung macht. Da gibt es natürlich auch Ansätze in diese Richtung, dass man versucht, diese Unsicherheit zu integrieren und konvergieren zu lassen in einer eine Art Synthese.

Welche Wege schlagen Sie noch vor?

ALB: Eine wichtige Sache für mehr Replizierbarkeit ist natürlich auch die Anreizstruktur. Wie ist die Akzeptanz von negativen Forschungsergebnissen durch die Community, durch Zeitschriften, Doktorandenschulen oder auch Berufungskommissionen oder Geldgeber? Das ist ein ganz wichtiger Punkt. Denn es hat einen Grund, dass wir Wissenschaftler:innen dazu neigen, fishing for significance zu machen. Man bekommt als Wissenschaftler:inn Schwierigkeiten, wenn man negative Ergebnisse publizieren will. Meiner Meinung nach müsste man sowohl top down als auch bottom up versuchen, das Problem zu lösen. Wissenschaftler:innen allein können vieles verbessern, aber nicht alles.

Auf der einen Seite belohnt das Wissenschaftssystem spektakuläre Funde, und auf der anderen Seite haben wir die Forderung der Zuwendungsgeber, Open Science zu fördern. Wie kommt man aus diesem sozialen Dilemma heraus? Gibt es Lösungswege?

ALB: Ich bin keine Soziologin oder Spezialistin für Wissenschaftssysteme, aber ich denke, dass die Dinge sich langsam ändern. Es gibt schon Fortschritte. Es geht langsam voran, aber es gibt da durchaus wirklich ermutigende Zeichen bei den Anreizstrukturen. An der LMU zum Beispiel wird bei den Psycholog:innen von jedem Bewerber und jeder Bewerberin auf eine Professur ein Statement zu Open Science verlangt. Sie sollen erklären, was sie in diese Richtung machen oder wie sie zu Open Science stehen. Wenn das bundesweit konsequent umgesetzt wird, ist das meiner Meinung nach ein sehr wichtiger Meilenstein. Wenn das optimal funktionierte, würde es die Nachwuchswissenschaftler: innen aus diesem sozialen Dilemma herausholen. Ich glaube, die Geldgeber können da auch enorm viel leisten, indem sie Offenheit zum Standard deklarieren. Sie können sehr viel verlangen. Da sehe ich positive Trends, aber es ist noch ein weiter Weg.

Zurück zur Statistik: Wenn ich meine Rohdaten gesammelt habe und diese jetzt ausgewertet werden müssen, dann stehe ich ja vor ganz vielen Entscheidungen. Welche Empfehlung haben Sie hier für Forschende, die richtigen Mikroentscheidungen zu treffen?

ALB: Erstens würde ich sagen: Nutzt Benchmarking-Studien oder Vergleichsstudien, das heißt groß angelegte Studien, die eher neutral gedacht und neutrale Vergleiche sind, als Guidance zur Wahl von geeigneten Methoden. Wir in der medizinischen Statistik haben beispielsweise die Stratos Initiative. Das ist eine Initiative von etwa hundert medizinischen Statistiker:innen weltweit, die zum Ziel hat, solche Guidance-Dokumente zu erstellen und zwar basierend auf empirischer Evidenz. Wenn es grundsätzlich mehr von solchen Studien gäbe, dann würde es vielleicht auch ein bisschen die Wahlmöglichkeiten reduzieren. Da würde ich natürlich jeden ermutigen, nach solchen Studien zu suchen, um diese externe Guidance zu bekommen. Es wird sicher nie ein perfektes automatisiertes Rezept geben, das sozusagen eine:n Statistiker:in ersetzt. Als Statistiker:in wird man immer kontextabhängig Entscheidungen treffen sollen. Was ich auch empfehlen würde, wäre, diese Entscheidungen möglichst ergebnisblind zu treffen, d.h., dass man sich nicht den p-Wert oder den Schätzer mit dem Konfidenz-Intervall anschaut, sondern dass man sich andere Aspekte ansieht – z.B. diagnostische Plots bei Regressionsmodellen. Man kommt dann nicht in die Versuchung, einen Analyseweg auszuwählen, weil z.B. der p-Wert klein war. Die ergebnisblinde Vorgehensweise ist generell sinnvoll.

In manchen Fällen kann es auch sinnvoll sein, eine kleine Simulationsstudie zu machen, die an die realen Daten angelehnt ist, die man gerade analysiert. Damit kann man das Verhalten von verschiedenen Analysestrategien im Vorfeld besser beurteilen. Da merkt man vielleicht, dass der Ansatz bei dieser Datenstruktur, die man hat, doch nicht so gut ist. Was ich persönlich sehr sinnvoll finde, dass man am Ende des Tages auch transparent zugibt, dass es verschiedene Analysewege gibt und dass man deren Ergebnisse zeigt. Das kann aber je nach Anwendungsfeld auch als verwirrend wahrgenommen werden. Dieser Weg ist auch nicht ganz einfach. Insgesamt sind alle Wege, die ich hier vorschlage, auch nur kleinere Schritte, die nicht das Gesamtproblem lösen.

Wenn Sie als Statistikerin das Thema Replikationskrise betrachten: Welche Rolle spielen Registered Reports? Nimmt die Zahl der Registered Reports zu?

ALB: Mein Gefühl ist, dass es eher zunimmt. Wobei ich ehrlich sagen muss, dass in meinem aktiven Umfeld das Bewusstsein eher höher ist. Wenn ich z.B. an meine Twitter-Community denke, sind das eher Leute, die sich für solche Themen interessieren. Aber ich glaube auch allgemein kann man von einem positiven Trend sprechen, natürlich sind die Psycholog:innen Vorreiter in dem Bereich. Für das Format Registered Report braucht man sich nur die Liste von beteiligten Zeitschriften anzuschauen. Man sieht ja, dass sich das von den Neuro- oder Psychowissenschaften in andere wissenschaftliche Felder hinein entwickelt. Mein Eindruck ist auch, dass die junge Generation ein sehr offenes Ohr dafür hat. Das ist ja ein bekanntes Phänomen, dass die etwas ältere Generation vielleicht ein bisschen vorsichtig ist. Schließlich wird das, was bislang immer gemacht wurde, nun kritisiert. Es ist für manche schwer, zu hören, dass es bislang oft nicht gut gelaufen ist. Also die jüngere Generation ist da wirklich sehr offen und ich denke, sie ist durchaus eine treibende Kraft für sowas.

Welche Erfahrungen haben Sie mit Replikationen als Werkzeug der Qualitätskontrolle?

ALB: So wie die wissenschaftliche Welt zurzeit ist, braucht man Replikationsstudien, bevor man ein Ergebnis als wirklich etabliert anerkennt. Ich denke, idealerweise wird man zukünftig weniger Replikationsstudien brauchen, aber so weit sind wir noch nicht. Ich bin selbst Befürworterin von Replikationsstudien und würde sie höher bewerten, so dass man Replikationsstudien als vollwertige Wissenschaft ansieht. Zumindest wenn sie gut motiviert sind. Wenn Replikationsstudien als vollwertige Wissenschaft angesehen und auch publiziert werden, dann gibt es weniger Probleme.

Wenn Sie sagen, man müsste eine gewisse Verblindung bei sich selber schaffen, wäre es auch eine Möglichkeit, diese Verblindung im Forschungsteam aufzuteilen?

ALB: Man müsste sich natürlich gut überlegen, wie man das umsetzt, einfach ist es, glaube ich, nicht. Aber grundsätzlich halte ich sehr viel von solchen Strategien mit Verblindung. Da gibt es auch in der methodischen Forschung Ansätze, wie man Benchmark-Experimente verblindet interpretieren kann. Genauso wie Verblindung in klinischen Studien sehr wichtig ist, damit die Ärzt:innen nicht beeinflusst werden von dem Wissen, dass der Patient das Medikament A oder B bekommen hat.

Nützt es aus Ihrer Sicht, wenn wirklich alle Rohdaten veröffentlicht werden?

ALB: Ja, ich denke, dass es eher gut wäre. Aber dann zusammen mit den Analyseskripten, die von Rohdaten zu den aufbereiteten Daten führen. Mit Rohdaten allein kann man meist als fremde Person gar nichts anfangen. Aber grundsätzlich halte ich das für sinnvoll, weil es zwischen Rohdaten und aufbereiteten Daten auch sehr viele Freiheitsgrade gibt. Es passieren einfach sehr viele Vorgänge, bei denen auch Fehler passieren können, bei denen irgendwelche Entscheidungen getroffen werden, die manchmal willkürlich sind, weil es halt verschiedene Möglichkeiten gibt.

Wo sehen Sie die Zukunft der ganzen Open-Science-Bewegung?

ALB: Ich glaube, nationale und internationale Netzwerke sind wichtig. Aber wichtig ist auch, dass Nachwuchsforschende bzw. Studierende entsprechend ausgebildet werden. Also früh genug. Und ich glaube, es kann nur funktionieren, wenn es da genug Multiplikatoren gibt, die das auch wirklich in der Praxis vermitteln. Natürlich ist Vernetzung auf höherer Ebene auch sehr wichtig, weil man dadurch auch Signale gibt, es entstehen auch Finanzierungen. Es ist wichtig, dass die zwei Ebenen kommunizieren, dass man keine Open-Science-Bewegung hat, die sich auf höheren Sphären bewegt, ganz ohne Anschluss an die Basis sozusagen. Und umgekehrt bringt es nichts, wenn man nur die besten Kurse und den besten Unterricht für die Studierenden und Doktorand:innen hat, aber die Entscheider nicht mitkommen.

Vielen Dank!

Das Interview wurde geführt von Dr. Doreen Siegfried.

Das Interview wurde geführt am 18.02.2022.

Über Prof. Dr. Anne-Laure Boulesteix

Anne-Laure Boulesteix ist Professorin am Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie an der Ludwig-Maximilians-Universität München. Nach einem Studium der Mathematik und allgemeinen Ingenieurwissenschaften in Paris und Stuttgart (Abschluss 2001), einer Promotion in Statistik an der Ludwig-Maximilians-Universität (LMU) München (2005) und verschiedenen Postdoc-Tätigkeiten im Bereich der medizinischen Statistik wurde Anne-Laure Boulesteix 2009 Juniorprofessorin und ist seit 2012 Professorin am Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie an der LMU. Neben ihren Forschungsinteressen an der Schnittstelle zwischen medizinischer Statistik, Bioinformatik und Machine Learning mit dem Schwerpunkt prognostische Modellierung ist sie seit mehr als zehn Jahren im Bereich Metascience aktiv. Sie war gewähltes Vorstandsmitglied des LMU Open Science Centers und ist Mitglied im Steering Committee der STRATOS-Initiative und Co-Chair des STRATOS-Simulationspanels.

Kontakt: https://www.ibe.med.uni-muenchen.de/mitarbeiter/professoren/boulesteix/index.html

Twitter: @BoulesteixLaure

LinkedIn: https://de.linkedin.com/in/anne-laure-boulesteix-7b761a15

ResearchGate: https://www.researchgate.net/profile/Anne-Laure-Boulesteix

Zurück zum Open-Science-Magazin