Die Glaubwürdigkeitsrevolution in der Wissenschaft

Warum wir Open Science brauchen

Foto: Ralf Rebmann

Es ist ein Grundprinzip der Wissenschaft, dass wissenschaftliche Aussagen nur dann verlässlich und robust sind, wenn sie wiederholt bestätigt werden können. Seit 2010 haben jedoch mehrere groß angelegte Projekte in verschiedenen empirischen Wissenschaften gezeigt, dass viele kanonische Ergebnisse nicht repliziert werden können (Camerer et al., 2016, 2018; R. A. Klein et al., 2014, 2018; Open Science Collaboration, 2015). Die Unfähigkeit, Ergebnisse zu replizieren, ist für empirische Disziplinen problematisch und schwächt das öffentliche Vertrauen in die Wissenschaft (National Academy of Sciences, 2018).

Als mögliche Lösung für diese sogenannte Replikationskrise hat eine wachsende Zahl von Wissenschaftler:innen transparentere und offenere Wissenschaftspraktiken gefordert (Nosek et al., 2015). Solche Praktiken bekämpfen die Ursachen der geringen Replizierbarkeit und tragen zu einer laufenden Glaubwürdigkeitsrevolution bei. Offene wissenschaftliche Praktiken können in der Tat die Replizierbarkeit erhöhen (Munafò et al., 2017) und das öffentliche Vertrauen fördern (Pew Research Center, 2019).

Ursachen für geringe Replizierbarkeit

Bevor die Ursachen für die geringe Replizierbarkeit skizziert werden, sollen kurz die zugrundeliegenden Konzepte definiert werden.

Replizierbarkeit bedeutet, dass ein Ergebnis mit anderen Zufallsstichproben aus einem mehrdimensionalen Raum, der die wichtigsten Facetten des Forschungsdesigns erfasst, erzielt werden kann. (vgl. Asendorpf et al., 2013, S. 109). Duvendack et al., 2017 operationalisieren Replikation für die Wirtschaftswissenschaft als jede Studie, deren Hauptzweck es ist, die Gültigkeit eines oder mehrerer empirischer Ergebnisse einer bereits veröffentlichten Studie zu bestimmen.
Reproduzierbarkeit bedeutet, dass Forscher:in B genau die gleichen Ergebnisse (zum Beispiel Statistiken und Parameterschätzungen) erhält, die ursprünglich von Forscher:in A aus den Daten von A berichtet wurden, wenn er bzw. sie die gleiche Datenanalyse durchführt (vgl. Asendorpf et al., 2013, S. 109).

Wichtig ist, dass für die meisten quantitativen Forscher:innen das Endziel die Generalisierbarkeit ist, was bedeutet, dass ein Ergebnis nicht von einer ursprünglich nicht gemessenen Variable abhängt, die einen systematischen Effekt hat. Generalisierbarkeit erfordert Replizierbarkeit, erweitert aber die Bedingungen, unter denen der Effekt auftritt (vgl. Asendorpf et al., 2013, S. 110).

Mehrere groß angelegte Projekte haben die Replizierbarkeit wissenschaftlicher Erkenntnisse in verschiedenen Bereichen wie Psychologie und Wirtschaft untersucht (vgl. für die Wirtschaftsforschung beispielsweise Camerer et al., 2016, 2018; siehe Replikation Network). Die Replikationsraten in diesen Projekten variieren erheblich. Wichtig ist, dass es keinen Konsens darüber gibt, was eine angemessene Replizierbarkeitsrate oder sogar ein angemessenes Maß ist. Dennoch zeigen diese Projekte, dass eine beträchtliche Anzahl von Ergebnissen in den Wirtschaftswissenschaften nicht repliziert werden kann.

In Anlehnung an Bishop (2019) können vier Hauptursachen für eine geringe Replizierbarkeit identifiziert werden. Auf der Seite der Forscher:innen sind sogenannte fragwürdige Forschungspraktiken eine wesentliche Herausforderung für eine robuste Wissenschaft. Auf der Seite der Zeitschriften – einschließlich der Herausgeber:innen und Gutachter:innen – führt die Vorliebe für neuartige und statistisch signifikante Ergebnisse zu einer Verzerrung der Veröffentlichungen. In den Sozialwissenschaften werden in vielen Bereichen kleine Effekte untersucht, wobei man sich auf kleine Stichproben stützt, was zu einer geringen statistischen Aussagekraft führt. Und schließlich wird die Reproduzierbarkeit durch Probleme beeinträchtigt, die sich aus menschlichen Fehlern ergeben, zum Beispiel durch die falsche Meldung statistischer Ergebnisse.

Im Folgenden sollen die vier Hauptursachen für geringe Replizierbarkeit erläutert werden.

(1) Fragwürdige Forschungspraktiken

Quantitative Wirtschaftswissenschaftler:innen stützen sich in der Regel auf empirische Daten. Um die Verallgemeinerbarkeit der Ergebnisse zu bestimmen, wird die statistische Signifikanz berechnet. Diese beschreibt den möglichen Informationsgehalt eines Ereignisses bzw. einer Messung vor dem Hintergrund zufälliger Verteilungen als Wahrscheinlichkeit. Je kleiner die Wahrscheinlichkeit der empirischen Daten ist, desto höher ist dann die Informationsqualität eines signifikanten Ergebnisses. In den Sozial- und Wirtschaftswissenschaften hat man sich für einen (willkürlichen) Schwellenwert von 5 Prozent entschieden. Das heißt, es gibt immer eine Restwahrscheinlichkeit, dass man ein bestimmtes Ergebnis fälschlicherweise für statistisch gesichert erachtet. Ein solches Ergebnis wäre nicht replizierbar und damit wertlos.

Im Folgenden werden zwei bekannte fragwürdige Forschungspraktiken HARKing und p-hacking, näher erläutert.

Was ist HARKing?
Das Generieren von Wissen stützt sich in der Regel auf zwei verschiedene Arten von Forschung. In der explorativen Forschung werden neue Hypothesen aufgestellt, in der konfirmatorischen Forschung werden a priori formulierte Hypothesen überprüft. Beide Arten der Forschung erfüllen unterschiedliche Funktionen und sind für den wissenschaftlichen Fortschritt von entscheidender Bedeutung. Ein konfirmatorischer Ansatz ist für die selbstkorrigierende Natur der Wissenschaft am wichtigsten. Ausgehend von einem Falsifikationsparadigma sind Forschende gezwungen, Vorhersagen aufzugeben, die nicht zuverlässig empirisch gestützt werden (Popper, 1959), was dazu beiträgt, unfruchtbare Forschungswege zu verwerfen. Umgekehrt kann ein explorativer Ansatz dazu dienen, Vorhersagen zu formulieren, die zur Entwicklung oder Aktualisierung von Theorien beitragen können.

Ein erhebliches Problem entsteht, wenn Forscher:innen explorative Forschung so darstellen, als wäre sie bestätigende Forschung, das heißt wenn sie Voraussagen als Vorhersagen bezeichnen. Diese fragwürdige Forschungspraxis ist als HARKing bekannt, ein Akronym für Hypothesizing After Results are Known (Kerr, 1998). Beim HARKing werden Daten verwendet, um Hypothesen zu generieren, die an denselben Daten getestet werden (Nosek, Ebersole, DeHaven, & Mellor, 2018). Zur Veranschaulichung: Stellen Sie sich eine:n Forscher:in vor, der bzw. die erwartet, dass Bedingung A effektiver ist als Bedingung B. Wenn die Ergebnisse jedoch zeigen, dass Bedingung B effektiver ist, schreibt der Forscher oder die Forscherin das Manuskript so, als hätte er/sie die ganze Zeit erwartet, dass Bedingung B effektiver ist. Daher stellt HARKing einen Zirkelschluss dar. Es verfehlt den eigentlichen Zweck der Hypothesenprüfung und verstößt gegen die grundlegende wissenschaftliche Methode. Entscheidend ist, dass HARKing aus dem Zufall Kapital schlägt: Unerwartete Ergebnisse stellen möglicherweise keine stabilen Effekte dar, was die Literatur mit falsch positiven Ergebnissen verwässert und zu einer geringen Replizierbarkeit beiträgt (Nosek et al., 2018).

Was ist p-Hacking?
Bei der Analyse von Daten gibt es mehrere legitime Analyseoptionen, sogenannte „researcher degrees of freedom“ (Simmons, Nelson, & Simonsohn, 2011, S. 1359; siehe auch das Interview mit Anne-Laure Boulesteix). Infolgedessen befinden sich die Forscher:innen im sprichwörtlichen „garden of forking paths“ (Gelman & Loken, 2013, S. 1). Einige Wege werden zu statistisch signifikanten Ergebnissen führen, andere nicht. Besonders problematisch wird die Situation, wenn Forscher:innen bewusst die Pfade suchen und auswählen, die zur Signifikanz führen, eine Praxis, die als p-hacking bekannt ist (Simmons et al., 2011).

Bei der Durchführung einer multiplen Regressionsanalyse, die kein signifikantes Ergebnis liefert, können Forscher:innen beispielsweise statistische Kontrollvariablen einbeziehen (oder entfernen), was ihre Chancen auf ein statistisch signifikantes Ergebnis erhöht. Weitere Beispiele für p-hacking sind

die Fortsetzung der Datenerhebung, bis die Forscher:innen signifikante Ergebnisse finden,
die Verwendung mehrerer Messgrößen eines Konstrukts und die Angabe nur derjenigen mit statistisch signifikanten Ergebnissen,
die Einbeziehung oder der Ausschluss von Skalenelementen, je nachdem, ob sie Signifikanz ergeben oder nicht,
die Einbeziehung oder der Ausschluss von Ausreißern aus der Datenanalyse, um Signifikanz zu erreichen, und
die Auswahl und Analyse nur bestimmter Untergruppen, die einen signifikanten Effekt aufweisen.

Simmons et al. (2011) zeigten, wie unannehmbar einfach es ist, statistisch signifikante Beweise für eine falsche Hypothese zu sammeln (und zu melden) (S. 1359). Sie zeigten, dass p-hacking die Wahrscheinlichkeit, statistisch signifikante Ergebnisse für nicht vorhandene Effekte zu finden, um bis zu 60 Prozent erhöht. [*Die Online-App „p-hacker“ veranschaulicht, wie einfach man mit verschiedenen p-hacking-Techniken, einschließlich der hier besprochenen, statistische Signifikanz erreichen kann.] Wie bei HARKing führt p-hacking zu Effekten, die weder zuverlässig noch robust sind, wodurch die Literatur mit nicht wiederholbaren Ergebnissen überfüllt wird.

(2) Publication Bias

Statistisch signifikante Ergebnisse werden mit größerer Wahrscheinlichkeit veröffentlicht als nicht signifikante, was zu einem sogenannten Publication Bias führt (Ioannidis, Munafò, Fusar-Poli, Nosek, & David, 2014). Wissenschaftler:innen können als Autor:innen, Gutachter:innen und Redakteur:innen zu dieser Verzerrung beitragen.

Erstens sind viele Autor:innen der Meinung, dass nicht signifikante Ergebnisse keinen wesentlichen Beitrag zur Literatur leisten. Infolgedessen bleiben nicht signifikante Ergebnisse oft unveröffentlicht, wodurch das so genannte „file-drawer problem“ entsteht (Rosenthal, 1979, S. 638). Zur Veranschaulichung befragten Cooper, DeNeve und Charlton (1997) eine kleine Stichprobe von Sozialwissenschaftler:innen nach dem Schicksal von Studien, die von ihrem institutionellen Forschungsausschuss genehmigt wurden. Sie fanden heraus, dass statistisch signifikante Ergebnisse weitaus häufiger einem Peer-Review unterzogen wurden als nicht signifikante Ergebnisse.

Zweitens lehnen Gutachter:innen und Redakteur:innen Manuskripte häufig ab, weil sie die Ergebnisse für nicht ausreichend neu, schlüssig oder aufregend halten (Giner-Sorolla, 2012) – eine Tendenz, die besonders bei gescheiterten Replikationen deutlich wird (Arceneaux, Bakker, Gothreau, & Schumacher, 2019). Infolgedessen werden Autor:innen ermutigt, entweder Studien zu verwerfen, in denen einige Vorhersagen unterstützt werden, andere jedoch nicht, oder, was noch schlimmer ist, aktiv p-Hacking zu betreiben, um eine kohärente Geschichte und eine endgültige Schlussfolgerung zu erreichen (O’Boyle, Banks, & Gonzalez-Mulé, 2017).

Obwohl das Ausmaß, in dem Manuskripte mit insignifoikanten Ergebnissen abgelehnt werden, nicht bekannt ist, führt der Publication Bias zu einer Überrepräsentation sowohl signifikanter Ergebnisse als auch überhöhter Effektgrößen (Fanelli, 2012). Diese Praktiken führen zu einer bizarren Situation, in der Effekte, die in der Literatur gut belegt zu sein scheinen, in Wirklichkeit nicht existieren, was zu einer Kanonisierung falscher Fakten (Nissen, Magidson, Gross, & Bergstrom, 2016) und letztlich zu einer geringen Replizierbarkeit führt.

(3) Geringe statistische Power

Die Aussagekraft von Forschungsergebnissen bezieht sich auf die Wahrscheinlichkeit, einen wahren Effekt zu beobachten. Bei typischen Inter-Personen-Designs wird die Power durch das Alpha-Niveau, die wahre Effektgröße und die Varianz in der Population, den Stichprobenumfang, das Studiendesign und die Art der Hypothese oder des statistischen Tests (z. B. ein- oder zweiseitig; Cohen, 1992) bestimmt. Generell gilt, dass bei großen Effekten kleine Stichproben zuverlässig Effekte aufdecken können; bei kleinen Effekten werden große Stichproben benötigt (Cohen, 1992). In der Praxis können Forscher:innen eine angemessene Anzahl von Fällen für einen bestimmten Effekt bestimmen, indem sie a priori Power-Analysen durchführen (z. B. mit Tools wie G*Power oder dem R-Paket pwr). Wenn Forscher:innen einen kleinen Effekt mit einer kleinen Stichprobe analysieren, sind die Analysen zu schwach. Analysen mit zu geringem Wirkungsgrad sind höchst problematisch: Erstens schränken sie die Fähigkeit ein, tatsächlich vorhandene Effekte zu finden. Zweitens überschätzen sie die Größe der gefundenen Effekte (Funder & Ozer, 2019). Eine niedrige Power führt also zu fehlerhaften Ergebnissen, die sich wahrscheinlich nicht wiederholen lassen.

(4) Menschliche Fehler

Alle Menschen machen Fehler; alle Forscher:innen sind Menschen; daher machen auch alle Forscher:innen Fehler. Eine Analyse von mehr als 250.000 Psychologiearbeiten, die zwischen 1985 und 2013 veröffentlicht wurden, ergab, dass die Hälfte der Arbeiten, die Signifikanztests angaben, mindestens einen p-Wert enthielten, der nicht mit der Teststatistik oder den Freiheitsgraden übereinstimmte (Nuijten, Hartgerink, van Assen, Epskamp, & Wicherts, 2016). Obwohl viele dieser Fehler unbeabsichtigt sind, scheinen die Forscher:innen nicht bereit zu sein, ihre Daten zu teilen, um bei der Aufdeckung und Korrektur von Fehlern zu helfen. Vanpaemel, Vermorgen, Deriemaecker und Storms (2015) fanden beispielsweise heraus, dass weniger als 40 Prozent der Autor:innen, die 2012 ein Manuskript in einer von vier Zeitschriften der American Psychological Association (APA) veröffentlichten, ihre Daten auf Anfrage weitergaben, obwohl die Verweigerung der Weitergabe einen Verstoß gegen die Forschungsethik der APA darstellt (American Psychological Association, 2009, S. 12). Selbst wenn statistische Berichtsfehler in veröffentlichten Forschungsarbeiten entdeckt werden, ist die Herausgabe von Korrekturen mühsam (z. B. Retraction Watch, 2018). Menschliche Fehler sind ein natürliches Nebenprodukt der Wissenschaft und müssen erwartet werden, aber das derzeitige System ist nicht darauf ausgelegt, Fehler zu erkennen, zu akzeptieren oder zu korrigieren. Infolgedessen enthält die Literatur zu viele fehlerhafte Ergebnisse, was ein weiterer Grund für die geringe Replizierbarkeit ist.

Und jetzt?

Das Open-Science-Magazin bietet Ihnen zahlreiche Worksheets und Praxistipps, wie Sie in Ihrem sehr turbulenten Alltag offene Praktiken umsetzen und die Glaubwürdigkeitsrevolution unterstützen können.

Open Science-Praxistipps zum Download
Open-Science-Trainingsplan mit 20 Worksheets
Konkrete Praxistipps von Wirtschaftsforschenden (BWL & VWL) aus Deutschland, Österreich und der Schweiz – aus allen Karrierestufen
Best-Practice-Erfahrungen von Wissenschaftler:innen angrenzender Fachdisziplinen (Soziologie, Psychologie, Statistik, Kommunikationswissenschaft)

Zudem empfehlen wir die Wissens-Datenbank „Open Economics Guide“ mit jeder Menge Tooltipps.

Zurück zum Open-Science-Magazin