„Replikationen sind unerlässlich für das Vertrauen in die Wirtschaftswissenschaft“

Florian Neubauer über seine Open-Science-Erfahrungen

Foto von Florian neubauer

Copyright: RWI / Reinaldo Coddou H

Die drei wesentlichen Learnings:

  • Replikationen sind eine großartige Möglichkeit, methodische Fähigkeiten zu vertiefen. Durch das Arbeiten mit fremdem Code und Daten lernen vor allem Nachwuchsforschende oder Studierende enorm viel – nicht nur inhaltlich, sondern auch technisch.
  • Auch wenn Replikationen selten viel Sichtbarkeit bringen, sind sie für Nachwuchsforscher:innen eine positive Chance, die Wissenschaft aktiv mitzugestalten und einen Beitrag zur Qualitätssicherung zu leisten.
  • Replikationen sind kein Misstrauensvotum, sondern ein Instrument, um die Robustheit von Ergebnissen zu prüfen und dadurch Vertrauen in Forschung aufzubauen.

Welche unterschiedlichen Spielarten gibt es im Kontext von Reproduzierbarkeit und Replizierbarkeit? Lassen Sie uns mit den Begriffen starten.

FN: Ich kann für die VWL sprechen, denn teilweise gibt es in anderen Sozialwissenschaften abweichende Definitionen. In unserem Projekt Robustness and Replicability in Economics (R2E), das von Jörg Ankel-Peters geleitet wird, arbeiten wir am RWI gemeinsam mit dem Institute for Replication und seinem Chair Abel Brodeur. Über die Zeit hat sich hier ein Rahmen etabliert und es werden zwei Obergruppen unterschieden: Reproduzierbarkeit und Replizierbarkeit. Reproduzierbarkeit bedeutet, dass wir dieselben Daten der Originalstudie verwenden; Replizierbarkeit bedeutet, dass wir die gleiche Forschungsfrage mit neuen Daten prüfen. Unter Reproduzierbarkeit fällt die Computational Reproducibility, bei der der Originalcode mit den Originaldaten ausgeführt wird und die Ergebnisse mit den publizierten Resultaten abgeglichen werden. Ebenfalls unter Reproduzierbarkeit fällt die Robustness Reproducibility, bei der wir auf Basis derselben Daten analytische Entscheidungen variieren, um zu testen, ob die ursprünglichen Ergebnisse gegenüber plausiblen Alternativen stabil bleiben. Unter Replizierbarkeit unterscheiden wir direkte Replikationen, bei denen neue Daten mit denselben Analysemethoden ausgewertet werden, und konzeptionelle Replikationen, bei denen neue Daten mit veränderten Methoden oder Forschungsdesigns genutzt werden, um zu prüfen, ob sich die zugrunde liegende Hypothese oder Forschungsfrage erneut stützen lässt. Die Faustregel lautet: gleiche Daten stehen für Reproduzierbarkeit, neue Daten stehen für Replizierbarkeit.

Welche dieser Dimensionen stellt aus Ihrer Sicht die größte Herausforderung für die empirische Wirtschaftswissenschaft dar?

FN: Die größte Herausforderung ist sicherlich die Replizierbarkeit, also die Erhebung neuer Daten. Das ist oft mit erheblichem Aufwand verbunden, in vielen Kontexten schwierig umzusetzen und teils gar nicht möglich. Aus meiner Sicht am unmittelbarsten relevant sind jedoch die Robustness Reproductions. Dabei wird geprüft, ob die veröffentlichten Ergebnisse mit denselben Daten stabil bleiben, wenn man alternative, aber plausible Analyseentscheidungen trifft. Das ist für die Forschung zentral, weil so deutlich wird, ob publizierte Ergebnisse tatsächlich belastbar sind. Solche Überprüfungen sind wichtig, um die wissenschaftliche Literatur weiterzuentwickeln. In den letzten Jahren hat es dazu auch immer wieder intensive Debatten gegeben, die zeigen, wie sensibel und zugleich notwendig dieser Bereich ist.

Heißt das im Umkehrschluss, dass Einzelstudien an Bedeutung verlieren und letztlich nur noch große Metaanalysen entscheidend sind, um Robustheit zu gewährleisten? Wo sehen Sie die Entwicklung, wenn es darum geht, Vertrauen in wissenschaftliche Ergebnisse zu schaffen – also Ergebnisse, die nicht nur für eine kleine Stichprobe, sondern etwa für ein ganzes Land gelten?

FN: Die Frage nach Stichprobengröße und Übertragbarkeit ist noch einmal ein eigenes Thema. Was Sie ansprechen, betrifft aber vor allem den Stellenwert von Robustness Reproductions. Im Idealfall würde jede Studie zumindest einmal reproduziert oder repliziert, sodass ein weiteres Forschungsteam die Ergebnisse prüft. In der Praxis ist das allerdings kaum umsetzbar. Zugleich steht das Vertrauen in die Wissenschaft regelmäßig unter Druck: Einerseits sind Replikationen unverzichtbar, weil sie Schwachstellen sichtbar machen und die Forschung weiterentwickeln. Andererseits wird genau dieser kritische Prozess von manchen so interpretiert, dass wissenschaftliche Ergebnisse insgesamt unzuverlässig seien. Replikationen sollten jedoch nicht als Schwächung, sondern als notwendiger Bestandteil wissenschaftlichen Fortschritts verstanden werden. Sie tragen dazu bei, die Qualität der Forschung kontinuierlich zu verbessern und damit letztlich auch das Vertrauen in ihre Ergebnisse zu stärken.

Ich denke, die Diskussion um Qualitätssicherung ist zunächst ein binnenwissenschaftliches Thema. Vieles lässt sich innerhalb einer Arbeitsgruppe, eines Lehrstuhls oder einer Subdisziplin klären, ohne dass es sofort nach außen getragen werden muss. Es gibt zudem etablierte Qualitätssicherungsprozesse, die greifen, bevor Ergebnisse so breit kommuniziert werden, dass sie politische Relevanz erlangen. Man könnte also sagen, wir bewegen uns hier auf unterschiedlichen Stufen. Vor diesem Hintergrund frage ich mich, ob die Wissenschaft im Lichte der Replikationsdebatte einzelne Studien nicht stärker wie Preprints behandeln sollte: als vorläufige Ergebnisse, die erst durch Reproduzierbarkeitsprüfungen an Gewicht gewinnen – so wie Preprints erst durch ein Peer Review validiert werden.

FN: Ja, und selbst das Peer Review ist ja nicht unfehlbar – genau deshalb sind Replikationen so wichtig. Ich stimme Ihnen zu: Einzelstudien sollten mit Vorsicht betrachtet werden. Es hat politische Entscheidungen gegeben, die auf der Grundlage einzelner Studien getroffen wurden, die sich im Nachhinein als problematisch herausstellten. Dennoch sind dies Einzelfälle. Insofern teile ich Ihre Einschätzung, dass man einzelne Ergebnisse zunächst eher als vorläufig ansehen sollte. Zugleich gibt es praktische Hürden: Neue Daten zu erheben ist oft aufwändig, manchmal gar nicht möglich, oder Daten sind aus rechtlichen Gründen nicht frei zugänglich. Dennoch wäre es im Idealfall wünschenswert, wenn publizierte Studien repliziert würden, um zu prüfen, ob die Ergebnisse tatsächlich belastbar sind.

Kommen wir zu Ihrer eigenen Arbeit. Sie sind Teil eines Forschungsteams, das sich mit Replizierbarkeit und Reproduzierbarkeit in der Ökonomie befasst. Was ist Ihr zentrales Erkenntnisinteresse? Und was konnten Sie bislang herausfinden?

FN: Ich bin über meine Promotion an der University of Connecticut zu diesem Themenfeld gekommen. Mein Doktorvater hatte mich in ein Projekt eingebunden, in dem wir Replikationen untersucht haben, die von 2010 bis 2020 im American Economic Review als sogenannte Comments veröffentlicht werden. Unser Interesse war zunächst weniger, selbst Replikationen durchzuführen, sondern vielmehr herauszufinden, ob solche Arbeiten die nachfolgende Literatur tatsächlich beeinflussen – ob sie also ein korrigierendes Element haben. Das Ergebnis haben wir in einem Paper mit dem Titel „Is Economics Self-Correcting?“ aufgearbeitet. Als vorbereitenden Schritt haben wir zunächst systematisch erfasst, wie viele Replikationen überhaupt in den 50 führenden wirtschaftswissenschaftlichen Fachzeitschriften erscheinen. Dieses Ergebnis haben wir separat unter dem Titel „Do Economists Replicate?“ veröffentlicht. Dabei zeigte sich, dass publizierte Replikationen sehr selten sind: Weniger als ein Prozent aller publizierten Artikel sind Replikationen – und das obwohl, wie wir auch durch eine Editor-Survey erhoben haben, die meisten Journals angeben, Replikationen grundsätzlich zu publizieren.

Okay.

FN: Aufbauend auf dieser ersten Untersuchung haben wir uns angesehen, ob Replikationen einen Einfluss auf die Zitationen des Originalpapiers haben. Unsere Hypothese war: Wenn ein Comment substanzielle Kritik äußert, etwa Fehler aufzeigt oder Ergebnisse infrage stellt, müssten die Zitationen des Originalartikels im Zeitverlauf sinken. Tatsächlich haben wir aber festgestellt, dass Replikationen selbst kaum zitiert werden und auch keinen messbaren Einfluss auf die Zitationshäufigkeit der ursprünglichen Studien haben.

Das ist ernüchternd – gerade weil Zitationen ja oft als Maßstab für wissenschaftlichen Einfluss gelten.

FN: Genau. Für Forschende macht das Replikationen zu einer eher undankbaren Aufgabe, da Karrieren stark von Zitationen abhängen. In unserer aktuellen Arbeit am RWI gehen wir gemeinsam mit dem Institute for Replication einen Schritt weiter. Im Rahmen eines Big-Team-Science-Projekts untersuchen wir 66 Studien aus der Entwicklungsökonomik. Dabei geht es vor allem um Robustness Reproductions, also die Frage, wie stabil Ergebnisse bleiben, wenn man alternative, aber plausible Analyseentscheidungen trifft.

Und wie gehen Sie dabei methodisch vor?

FN: Wir haben ein Protokoll entwickelt und 66 Replikator:innen beauftragt, veröffentlichte Studien zu reproduzieren. Ziel ist es, den Prozess möglichst stark zu standardisieren, um Vergleichbarkeit herzustellen. Dazu gehören Präregistrierungen, ein internes Review im Kernteam sowie Peer Reviews durch andere Replikatoren. Auf diese Weise wollen wir die Qualität der Replikationen sichern.

Gibt es schon erste Erkenntnisse?

FN: Wir haben fast alle 66 Reports inzwischen gesehen und der Großteil hat unseren projektinternen Review durchlaufen. Es ist eine Mammutaufgabe, aber wir arbeiten mit Hochdruck an den letzten Metern. Wir hoffen, die Ergebnisse im nächsten Jahr veröffentlichen zu können.

Es gibt ja schon seit etwa zehn Jahren Untersuchungen zu diesem Thema. Könnte man also sagen, es hat sich in der Zwischenzeit kaum etwas verändert?

FN: Ganz so ist es nicht, da hat sich durchaus etwas getan.

Zum Beispiel?

FN: Ein wichtiger Fortschritt betrifft das Bewusstsein für das Reproduktions-Thema und die Datenverfügbarkeit. Einige wenige Journals haben inzwischen sogar Data Editors, die darauf achten, dass Datensätze hochgeladen und zugänglich gemacht werden. Das ist aber keineswegs flächendeckender Standard, sondern bislang eher in bestimmten Fachzeitschriften etabliert. Die meisten Journals haben allerdings mittlerweile zumindest eine Data Sharing Policy – doch an der Um- und Durchsetzung hapert es nach wie vor.

Noch einmal konkret zu den 66 Studien: Bedeutet das, dass Sie 66 Personen haben, die jeweils ein Paper nach einem festen Protokoll bearbeiten? Oder muss ein Replikator mehrere Arbeiten übernehmen?

FN: Nein, es sind 66 Papiere und 66 Replikator:innen, also jeweils eine Person pro Studie. Jede oder jeder bekommt das entsprechende Replication Package zusammen mit unserem Protokoll und führt die Reproduktion durch. Ziel ist, dass wir am Ende die einzelnen Ergebnisse veröffentlichen und zugleich in einem übergeordneten Metapapier zusammenführen, um generelle Erkenntnisse über die Robustheit in diesem Forschungsfeld zu gewinnen. Die Replikator:innen erhalten für ihre Arbeit ein Honorar und werden Ko-Autor:innen auf dem Meta-Papier.

Wie haben Sie die 66 Studien konkret ausgewählt? Sie haben schon erwähnt, dass Sie in den Top Journals gesucht haben – können Sie den Auswahlprozess kurz skizzieren?

FN: Wir haben mehrere Kriterien festgelegt. Zunächst musste es sich um ein Paper aus der Entwicklungsökonomie handeln. Außerdem haben wir nur Arbeiten berücksichtigt, die einen kausalen Effekt schätzen. Rein deskriptive Studien haben wir ausgeschlossen, doch die sind ohnehin selten. Es musste sich zudem um empirische mikroökonomische Forschung handeln, nicht um makroökonomische Analysen. Die Auswahl beschränkte sich auf drei Journals: das Journal of Development Economics sowie zwei Zeitschriften der American Economic Association. Beim Journal of Development Economics war klar, dass alle Arbeiten in den Bereich Entwicklungsökonomie fallen, bei den anderen mussten wir jedes Paper einzeln prüfen und klassifizieren. Um auf genügend Studien zu kommen, haben wir die Publikationsjahre Schritt für Schritt erweitert – zunächst 2021/2022, dann bis 2019 oder 2018 zurück.

Und wie sind Sie dann von dieser größeren Menge zu den 66 Papieren gekommen?

FN: Am Ende hatten wir etwa 250 infrage kommende Studien. Von diesen haben wir nur diejenigen weiterverfolgt, bei denen Daten und Code verfügbar waren und der Code auch lauffähig war. Wir haben an dieser Stelle noch nicht geprüft, ob die Ergebnisse identisch zum Originalpapier sind, sondern lediglich, ob eine Replikation technisch möglich ist. Aus dieser reduzierten Menge hatten wir dann immer noch mehr Arbeiten, als wir bearbeiten konnten. Deshalb haben wir schließlich 66 zufällig ausgewählt.

Hatten Sie für das Protokoll eine Vorlage, auf die Sie aufbauen konnten, oder haben Sie es komplett neu entwickelt?

FN: Wir haben nicht ganz bei null angefangen. Die erfahrenen Mitglieder in unserem Team hatten bereits zahlreiche individuelle Replikationen durchgeführt und entsprechend schon Erfahrung. Außerdem haben wir unser Protokoll anhand zweier Pilotreplikationen entwickelt. Das ganze auf die Meta-Ebene zu bringen, das gab es bis dato nicht in den Sozialwissenschaften.

Und wie haben Sie die 66 Replikator:innen ausgewählt? Mussten sie sich bewerben und nachweisen, dass sie Erfahrung mit Replikationen und dem Umgang mit einem solchen Protokoll haben?

FN: Genau, wir haben ein Posting auf unserer Website und über verschiedene Kanäle veröffentlicht. Interessierte mussten sich bewerben, mit Lebenslauf und einem kurzen Motivationsschreiben. Die Resonanz war sehr positiv: Wir haben Bewerbungen von Professor:innen bekommen, aber auch von Postdocs und Doktorand:innen. Einige unserer Replikator:innen haben auch bereits an Meta-Science-Studien oder sogar Many-Analysts-Projekten mitgewirkt.

Wenn Sie auf Ihr internationales Metaprojekt schauen – was nehmen Sie persönlich daraus mit? Was macht Ihnen daran Freude?

FN: Mir macht es Freude, Teil einer Community zu sein, die in den letzten Jahren enorm an Dynamik gewonnen hat. Ich beschäftige mich seit vier, fünf Jahren mit dem Thema und selbst in dieser vergleichsweise kurzen Zeit hat sich viel getan, gerade in der VWL. Man merkt, dass Replikationen und Fragen der Qualitätssicherung immer mehr Menschen bewegen, auch Kolleg:innen, die im Alltag gar nicht in diesem Bereich forschen. Viele beteiligen sich inzwischen an Many-Analysts-Studien oder sprechen mich im Büro darauf an. Und schließlich sehe ich den gesellschaftlichen Mehrwert. Es ist wichtig, dass Politik und Öffentlichkeit Entscheidungen auf Grundlage verlässlicher Forschung treffen können. Dazu tragen Projekte wie unseres bei. Mir macht es außerdem Spaß, in zwei Rollen aktiv zu sein: Einerseits übernehme ich koordinative Aufgaben, andererseits arbeite ich auch selbst mit, lese Reports, diskutiere mit Replikator:innen und achte auf Qualität. Diese Mischung aus Organisation und inhaltlicher Arbeit empfinde ich als besonders bereichernd.

Wie beeinflusst die Metaforschung aus Ihrer Sicht die disziplinäre Forschung? Hat sie so etwas wie einen selbstreinigenden Effekt?

FN: In meiner eigenen Arbeit merke ich das vor allem daran, dass ich viel stärker auf saubere Dokumentation achte. Ein vollständiges Replication Package mit nachvollziehbarem Code und klar beschriebenen Schritten ist mir heute wesentlich wichtiger als früher. Ich habe oft gesehen, wie stiefmütterlich das behandelt wird – und versuche bewusst, es besser zu machen. Ob sie einen selbstreinigenden Effekt hat, wird sich zeigen.

Stellen Sie sich vor, Sie sprechen mit Nachwuchsforschenden oder Studierenden, die noch wenig Erfahrung haben: Welche drei Tipps würden Sie ihnen für den Einstieg in das Thema Reproduzierbarkeit und Replizierbarkeit geben?

FN: Erstens: einfach selbst replizieren. Das muss nicht im Rahmen einer Pflichtveranstaltung sein. Man kann sich auch eigenständig ein Paper heraussuchen, das einen interessiert, und prüfen, ob es ein Reproduction Package gibt. Dann kann man zunächst eine Computational Reproduction versuchen und später Robustness-Checks ergänzen. Dabei lernt man unglaublich viel, auch im Umgang mit fremdem Code. Allerdings ist auch klar, dass plausible Robustness-Entscheidungen viel Kenntnis und oft auch Erfahrung voraussetzen. Zweitens: an Replication Games teilnehmen. Die werden vom Institute for Replication organisiert, finden weltweit mehrmals im Jahr statt. Das ist ein niedrigschwelliger Einstieg und zugleich eine gute Möglichkeit, Teil einer globalen Community zu werden. Und drittens: sich vernetzen. Der Austausch mit anderen, die bereits Erfahrung mit Replikationen haben, ist sehr wertvoll. Man lernt viel und trifft auf eine offene, kollegiale Gemeinschaft. Das ist wichtig. Und meine Erfahrung ist, dass die Menschen in dieser „Meta-Science-Bubble“ sehr nett und hilfsbereit sind.

Zum Abschluss noch eine größere Frage: Wie kann Ihre Arbeit – unabhängig von den konkreten Ergebnissen – das Vertrauen in die Forschung stärken? Und wie könnte sie die Wirtschaftsforschung insgesamt inspirieren?

FN: Vertrauen entsteht nicht, indem man Einzelfälle von wissenschaftlichem Fehlverhalten skandalisiert. Natürlich gibt es schwarze Schafe, aber die gibt es überall. Wenn man sensationslüstern nur solche Fälle herausgreift, schafft man am Ende eher Misstrauen. Wichtiger ist der Fokus auf Robustheit: Wie stabil sind Ergebnisse, wenn man kleine Annahmen verändert oder alternative Analysen durchführt? Replikationen zeigen genau das; ohne den Anspruch, jemandem Fehler nachzuweisen, sondern um die Wissenschaft insgesamt voranzubringen. Aus meiner Sicht sind Replikationen daher unverzichtbar, um Glaubwürdigkeit und Vertrauen in die Wirtschaftsforschung zu sichern und weiterzuentwickeln.

Vielen Dank!

*Das Interview wurde am 15. September 2025 geführt von Dr. Doreen Siegfried.

Über Florian Neubauer, PhD:

Florian Neubauer ist Wissenschaftler im Kompetenzbereich „Klima- und Entwicklungspolitik“ des RWI und seit 2024 wissenschaftlicher Mitarbeiter der Expertenkommission Forschung und Innovation, die die Bundesregierung berät. Florian Neubauer hat einen PhD in Agricultural and Resource Economics von der University of Connecticut, USA, einen Master in Development Economics von der Georg-August Universität Göttingen und einen Bachelor in Volkswirtschaftslehre und Politikwissenschaften von der Leuphana Universität Lüneburg. Seine Forschungsschwerpunkte liegen in der Entwicklungsökonomik und Forschungstransparenz.

Kontakt: https://www.rwi-essen.de/rwi/team/person/florian-neubauer

LinkedIn: https://www.linkedin.com/in/florianneubauer/

ResearchGate: https://www.researchgate.net/profile/Florian-Neubauer




Zurück zum Open-Science-Magazin