Fehler sind normal – der Code gehört trotzdem veröffentlicht

Jan Marcus über seine Open-Science-Erfahrungen

Bildquelle: Bernd Wannenmacher/FU Berlin

Die drei wesentlichen Learnings:

Reproduzierbarkeit ist eine zentrale Anforderung an wissenschaftliche Studien. Offene Daten und zugänglicher Code sind essenziell, damit Forschung überprüfbar und belastbar ist. Ohne sie bleibt vieles im Ungefähren.
Fehler im Code passieren. Entscheidend ist nicht Perfektion, sondern die Bereitschaft, offen mit Fehlern umzugehen, damit diese verbessert werden können.
Open Science ist praxisnah und lernbar. Formate wie Replication Games oder einfache Dokumentation im eigenen Workflow machen den Einstieg leicht. Wer früh damit beginnt, profitiert langfristig – fachlich und organisatorisch.

Wo sehen Sie in Ihrem Fachgebiet, der Wirtschaftsforschung, derzeit konkrete Herausforderungen in Bezug auf Replizierbarkeit und Reproduzierbarkeit – auch vor dem Hintergrund, dass viele Fachzeitschriften zunehmend verlangen, sogenannte Replication Packages bereitzustellen?

JM: Reproduzierbarkeit ist eine grundlegende Anforderung an jede wissenschaftliche Studie. Dennoch erfüllen viele Arbeiten nicht einmal diese Mindestvoraussetzung. Reproduzierbarkeit bedeutet, dass bei Verwendung derselben Daten und desselben Codes identische Ergebnisse erzielt werden. In der Praxis gelingt das jedoch häufig nicht. Ein wesentlicher Grund ist, dass entweder die Daten, der Code oder beides nicht öffentlich zugänglich sind. Selbst wenn beides verfügbar ist, treten regelmäßig Probleme auf: Der Code läuft beispielsweise nicht auf einem anderen Computer oder nicht kontrollierte Zufallsprozesse führen dazu, dass sich die Ergebnisse nicht exakt reproduzieren lassen. Diese Aspekte erschweren die Nachvollziehbarkeit erheblich und zeigen, dass es in der Praxis noch deutlichen Verbesserungsbedarf gibt.

Und warum werden Daten Ihrer Erfahrung nach nicht geteilt? Welche Gründe beobachten Sie dafür?

JM: Ich halte es für wichtig, zwischen dem Teilen von Daten und dem Teilen von Code zu unterscheiden. Beim Teilen von Daten gibt es unterschiedliche Gründe, warum das nicht erfolgt. Ein häufiger und nachvollziehbarer Grund ist, dass Forschende oft nicht die Rechte besitzen, die Daten weiterzugeben – insbesondere bei Sekundärdatenanalysen. In solchen Fällen ist man nicht Eigentümer:in der Daten und darf sie daher nicht veröffentlichen.

Es besteht aber die Möglichkeit, transparent zu dokumentieren, wie andere Forschende selbst Zugang zu den Daten erhalten können – sofern diese grundsätzlich zugänglich sind. Ein weiterer Grund liegt in persönlichen Vorbehalten: Wer viel Zeit und Aufwand in die Datenerhebung investiert hat, ist mitunter zurückhaltend, diese ohne Einschränkung zur Verfügung zu stellen. Auch hierfür gibt es praktikable Lösungen, etwa eine zeitlich begrenzte Sperrfrist, nach deren Ablauf die Daten freigegeben werden.

Anders ist die Situation beim Teilen von Code, also von Analyse- und Aufbereitungsskripten in statistischer Software. Hier sehe ich keine überzeugenden Gründe, den Code nicht offenzulegen. Der Aufwand ist vergleichsweise gering, da der Code ohnehin im Rahmen der Analyse erstellt wurde. Insgesamt überwiegt aus meiner Sicht für die Wissenschaft der Nutzen einer transparenten Weitergabe deutlich.

Es gibt jedoch unterschiedliche Gründe, warum Forschende ihren Code nicht bereitstellen. Ein Teil der Forschenden ist sich schlicht nicht darüber im Klaren, wie wichtig die Veröffentlichung des Codes ist. Es besteht mitunter die Annahme, dass eine ausführliche Beschreibung im Paper ausreicht, um die Analyse nachvollziehbar zu machen. In der Praxis ist das aber selten der Fall. Die meisten Arbeiten sind methodisch komplex, und viele Details lassen sich in einem Artikel nicht vollständig dokumentieren, ohne die Lesbarkeit zu beeinträchtigen. Früher gab es zudem technische Herausforderungen – etwa die Frage, wo der Code gespeichert werden soll. Diese Hürde existiert heute kaum noch. Die meisten Fachzeitschriften bieten die Möglichkeit, Repositorien zu verlinken, und auch persönliche Webseiten oder institutionelle Plattformen stehen zur Verfügung. Technische Gründe zählen daher aus meiner Sicht nicht mehr.

Glauben Sie, dass manche Forschende vielleicht befürchten, dass im Code Fehler entdeckt werden könnten oder dieser nicht „sauber“ genug erscheint?

JM: Ja, das spielt auch eine Rolle. Manche Forschende machen sich Sorgen, dass bei Veröffentlichung des Codes Fehler entdeckt werden oder die Struktur des Codes als unübersichtlich bewertet wird. Mir ist es ganz wichtig, dass wir eine konstruktive Fehlerkultur etablieren. Fehler kommen regelmäßig vor – gerade bei komplexen Auswertungen. Ich bin selbst an einer größeren Metastudie beteiligt, in der zahlreiche Studien reproduziert und auch auf Fehler geprüft wurden. In etwa einem Viertel der Fälle wurden tatsächlich Fehler im Code festgestellt. Das bedeutet nicht, dass eine Studie insgesamt unbrauchbar ist, sondern zeigt vielmehr, dass kleinere Fehler in der Praxis häufig vorkommen – auch bei sehr erfahrenen Forschenden. Deshalb: Fehler sind normal – der Code gehört trotzdem veröffentlicht. Nur, wenn der Code offengelegt ist, besteht die Möglichkeit, Fehler zu erkennen und zu korrigieren, was viel besser ist, als wenn die Fehler unentdeckt bleiben. Eine konstruktive Fehlerkultur bedeutet aber auch, dass wir anderen zugestehen müssen, dass sie kleine Fehler machen—und wir sie nicht in Grund und Boden verdammen. Wird der Code nicht veröffentlicht, bleibt das Potenzial zur Qualitätssicherung ungenutzt.

Welche Rolle könnten KI-gestützte Tools wie ChatGPT bei der Vorbereitung von Code für die Veröffentlichung spielen? Könnte das ein Anreiz oder Hilfsmittel sein, Code überhaupt erst zu veröffentlichen?

JM: Ich denke, solche Werkzeuge können durchaus unterstützend wirken – man sollte allerdings keine überzogenen Erwartungen haben. Hilfreich sind sie zum Beispiel, wenn der Code wenig oder gar nicht kommentiert ist. KI-gestützte Programme können dabei helfen, Kommentare hinzuzufügen oder den Code hinsichtlich möglicher Fehler oder Unstimmigkeiten zu überprüfen. Auch wenn das keine Garantie für fehlerfreien Code ist, kann es die Qualität erhöhen und Unsicherheiten abbauen. Man kann die Tools zudem fragen, ob es Verbesserungsvorschläge für Struktur oder Effizienz gibt. All das kann dazu beitragen, dass Forschende weniger Hemmungen haben, ihren Code offenzulegen. Letztlich bleibt die Verantwortung bei der forschenden Person, aber die technischen Möglichkeiten können den Einstieg erleichtern.

Welche Rolle spielt öffentlich zugänglicher Code konkret für die Reproduzierbarkeit?

JM: Der sogenannte Goldstandard ist, dass sowohl die Daten als auch der Code verfügbar sind. Wenn nur die Daten vorliegen, ist das schon ein Fortschritt – aber ohne den zugehörigen Code bleibt vieles unklar. Früher wurde gelegentlich angenommen, es genüge, die Daten bereitzustellen – oder er sei gar nicht notwendig, etwa bei kontrollierten Zufallsexperimenten, die vermeintlich einfach auszuwerten sind. Inzwischen hat sich gezeigt, dass auch diese kontrollierten Zufallsexperimente oft deutlich komplexer sind als erwartet: Es werden Kontrollvariablen einbezogen oder Anpassungen für multiples Testen vorgenommen. Diese Details lassen sich im Text kaum vollständig und eindeutig beschreiben.

Code bietet hier eine deutlich höhere Präzision – ähnlich wie eine mathematische Formel oft klarer ist als eine verbale Beschreibung. Ein Beispiel: Ich arbeite viel mit dem Sozio-oekonomischen Panel. Wenn in einer Studie steht, dass „Einkommen kontrolliert“ wurde, ist das wenig aussagekräftig. Im Panel gibt es rund 40 bis 50 unterschiedliche Einkommensvariablen – abhängig davon, ob es sich um Brutto- oder Nettoeinkommen handelt, um Einzel- oder Haushaltsebene, monatliche oder jährliche Angaben. Solche Entscheidungen lassen sich nicht sinnvoll im Fließtext abbilden, ohne dass der Text unübersichtlich oder unlesbar wird. Der Code schafft hier Transparenz und ermöglicht es anderen, die Analyse exakt nachzuvollziehen.

Würden Sie sagen, Fachzeitschriften und Förderinstitutionen haben bereits alle Möglichkeiten ausgeschöpft? Oder anders gefragt: Wenn Sie eine Wunschliste formulieren müssten – wo könnte noch mehr von Forschenden verlangt werden?

JM: Ganz klar: Fachzeitschriften sollten die Bereitstellung von Replikationscode verpflichtend machen – und nicht nur formal, sondern mit verbindlicher Kontrolle. Darüber hinaus wäre es zwar wünschenswert, wenn Zeitschriften selbst prüfen würden, ob die im Manuskript präsentierten Ergebnisse mit dem eingereichten Code tatsächlich reproduzierbar sind. Diese Form der Qualitätssicherung ist jedoch sehr aufwändig und damit kostenintensiv – sie lässt sich in der Regel nur von finanziell gut ausgestatteten Journals umsetzen. In der Volkswirtschaftslehre gibt es jedoch eine positive Entwicklung: Einige der Top Journals führen solche Reproduzierbarkeitsprüfungen bereits durch. Damit übernimmt das Fach – im Vergleich zu anderen Disziplinen – hier eine gewisse Vorreiterrolle.

Neben den Fachzeitschriften sollten auch Forschungsförderer stärker Verantwortung übernehmen. Institutionen wie die DFG könnten beispielsweise zur Bedingung machen, dass der Analysecode am Ende eines Projekts öffentlich zugänglich gemacht wird. Solche Vorgaben würden einen wichtigen Beitrag zur Transparenz und Nachvollziehbarkeit wissenschaftlicher Arbeiten leisten.

Wenn jemand unsicher ist, ob der eigene Code „gut genug“ für die Veröffentlichung ist – gibt es Kriterien oder eine Art Check, an dem man sich orientieren kann?

JM: Aus Sicht der Reproduzierbarkeit ist das wichtigste Kriterium, dass der Code auf einem anderen System läuft und identische Ergebnisse liefert. Ein einfacher Test ist, den Code mit den Daten einer Kollegin oder einem Kollegen zur Verfügung zu stellen. Wenn die die Ergebnisse auf ihren Computern reproduzieren können, ist das ein gutes Zeichen.

Wenn man möchte, dass ein Code auch noch in zehn Jahren nachvollzogen werden kann – was muss die erstveröffentlichende Person technisch bereitstellen, damit die Reproduzierbarkeit langfristig gesichert ist?

JM: Früher habe ich meine Replikationspakete – also Code und Daten – einfach auf meiner persönlichen Homepage veröffentlicht. Das erschien mir ausreichend, da sie öffentlich zugänglich waren. In der Praxis hat sich aber gezeigt, dass das nicht nachhaltig ist: Viele finden die Daten dort nicht, und wenn die Seite irgendwann offline geht, sind die Materialien nicht mehr verfügbar. Heute nutze ich stattdessen spezialisierte Repositorien, die auf langfristige Archivierung ausgelegt sind.

Welche sind das?

JM: Es gibt verschiedene verlässliche Repositorien, etwa das Harvard Dataverse oder das Open Science Framework. Diese Plattformen sind darauf ausgelegt, Daten und Code langfristig zugänglich zu halten – deutlich stabiler als etwa eine persönliche Homepage. Die langfristige Zugänglichkeit ist aus technischer Sicht ein zentraler Baustein für nachhaltige Reproduzierbarkeit. Ein weiterer Vorteil für Forschende ist, dass man dort einen dauerhaften Identifikator erhält, beispielsweise eine DOI. Damit sind die Materialien eindeutig referenzierbar. Idealerweise wird dieser Link sowohl im Artikel selbst als auch auf der Journal-Website angegeben, sodass interessierte Personen den Replikationscode ohne Umwege finden. Wichtig ist außerdem, dass im Code genau dokumentiert wird, welche Software verwendet wurde – einschließlich Versionsangaben für Programme und Pakete. Denn selbst bei verfügbarer Datei kann eine Replikation scheitern, wenn diese technischen Details fehlen.

Sind frühere Versionen von Software oder Paketen überhaupt noch langfristig zugänglich? Oder ist das wie bei alten Kassetten – man weiß nicht mehr, wie man sie abspielen soll?

JM: Bei den meisten gängigen Statistikprogrammen ist der Zugriff auf frühere Versionen grundsätzlich möglich. In der Wirtschaftswissenschaft wird beispielsweise häufig mit Stata gearbeitet. Dort ist das System rückwärtskompatibel: Man kann in neueren Versionen angeben, dass ein bestimmter Befehl oder ein gesamtes Skript in einer älteren Version ausgeführt werden soll. Diese Funktion wird direkt von Stata unterstützt. Komplizierter ist es bei nutzergenerierten Zusatzprogrammen. Diese werden nicht zentral archiviert, was bedeutet, dass ältere Versionen möglicherweise nicht mehr verfügbar sind. Deshalb ist es sinnvoll, solche externen Programme zusammen mit dem Replikationspaket bereitzustellen.

Für andere Plattformen wie R oder Python gilt: Auch hier sollte dokumentiert werden, welche Versionen der Programme und verwendeten Pakete eingesetzt wurden. Es gibt zudem technische Lösungen wie Docker, mit denen sich eine komplette Rechenumgebung abspeichern lässt. Damit kann eine spätere Replikation genau unter denselben technischen Bedingungen erfolgen. Insgesamt sind die Möglichkeiten zur Sicherung der Reproduzierbarkeit in den letzten Jahren deutlich ausgereifter geworden.

Wie sensibilisieren Sie Ihre Studierenden und Doktorand:innen für Reproduzierbarkeit und den sorgfältigen Umgang mit Code? Welche Rolle spielt das Thema in der Ausbildung?

JM: Ich halte es für ganz wesentlich, dass das Thema Reproduzierbarkeit früh in der Ausbildung verankert wird. Gerade in der Master- und Promotionsphase ist das eine gute Gelegenheit, den eigenen wissenschaftlichen Workflow von Beginn an transparent aufzubauen – also so, dass Daten und Code nachvollziehbar und weiterverwendbar sind. Diese Prinzipien sollten fester Bestandteil der Ausbildung sein – nicht nur für Promovierende, sondern auch für Masterstudierende. Selbst wenn Letztere später außerhalb der Wissenschaft arbeiten, profitieren sie davon: Der strukturierte Umgang mit Code und die Fähigkeit, Analysen reproduzierbar zu dokumentieren, sind auch in vielen außerwissenschaftlichen Berufsfeldern gefragt. Insofern stärkt das auch die beruflichen Perspektiven, die Employability. Wer teamorientiert an Software oder Datenprojekten arbeitet, muss sicherstellen können, dass die eigenen Arbeitsschritte für andere nachvollziehbar bleiben.

Sie sind auch bei Lab² aktiv. Mit Blick auf Ihre Erfahrung: Welche Maßnahmen wären geeignet, um Fehlanreize im wissenschaftlichen System abzubauen und Replikationen stärker in den Forschungsalltag zu integrieren? Wie kann man Kolleg:innen dazu motivieren, mehr zu teilen und häufiger zu replizieren?

JM: Ein Teil läuft über Druck – etwa durch Fachzeitschriften, die die Veröffentlichung von Daten und Code verpflichtend machen. Auch Betreuende von Promotionsprojekten können solche Standards früh einfordern. Gleichzeitig hilft es, das Thema fest in der wissenschaftlichen Ausbildung zu verankern, damit Reproduzierbarkeit als Selbstverständlichkeit wahrgenommen wird.

Ein zentrales Problem war lange das Verhältnis zwischen Originalautor:innen und Replikator:innen. Replikationen hatten oft nur dann Publikationschancen, wenn sie die ursprünglichen Ergebnisse widerlegt haben. Das hat zu einer Art Gegnerschaft geführt. Dabei ist es wissenschaftlich genauso relevant, wenn sich Ergebnisse bestätigen.

Es braucht daher mehr Publikationsmöglichkeiten für Replikationen – unabhängig vom Ausgang. Journals wie das Journal of Comments and Replications in Economics (JCRE) zeigen, dass es geht: Dort zählen auch bestätigende Replikationen als wertvoller Beitrag. Das fördert Verlässlichkeit und reduziert zugleich Anreize zur Überdramatisierung.

Open Science wird oft mit dem Argument verknüpft, das Vertrauen in Wissenschaft zu stärken – auch außerhalb der Fachcommunity. Aber ist es realistisch zu erwarten, dass etwa Politik oder Wirtschaft tatsächlich Code und Daten nachvollziehen? Oder ist das eher ein Argument, das nur innerhalb der Wissenschaft greift?

JM: Aus meiner Sicht richtet sich Reproduzierbarkeit in erster Linie an die wissenschaftliche Community. Dort entscheidet sich, welche Ergebnisse als belastbar gelten und zur Politikberatung weitergegeben werden. Politik oder Wirtschaft prüfen selten selbst Code und Daten, aber sie verlassen sich auf Einschätzungen aus der Wissenschaft. Wenn Studien offen dokumentiert und erfolgreich repliziert wurden, steigt ihre Glaubwürdigkeit – und damit auch das Vertrauen, das Politikberater:innen ihnen beimessen.

Politikberatung ist ein wichtiger Anwendungsbereich, aber auch für die Theorieentwicklung in der Wissenschaft spielt Reproduzierbarkeit eine zentrale Rolle. Viele theoretische Modelle basieren auf empirischen Befunden. Wenn diese Befunde nicht belastbar sind, hat das direkte Folgen für die Weiterentwicklung von Theorien. Deshalb braucht es zunächst innerhalb der Wissenschaft eine kritische Auseinandersetzung darüber, welche Ergebnisse als verlässlich gelten können.

Sie haben selbst zum Thema Replikationscode geforscht. Was sind Ihre zentralen Erkenntnisse?

JM: Wir haben uns über 2.500 Publikationen angesehen, die auf Daten des Sozio-oekonomischen Panels basieren, und geprüft, ob Replikationscode verfügbar ist. Dafür haben wir die Artikel selbst ausgewertet, Journal-Webseiten durchsucht, Autor:innen-Webseiten angesehen und einschlägige Repositorien geprüft. Das Ergebnis war ernüchternd: Nur in etwa 6 Prozent der Fälle war Code öffentlich zugänglich.

Nur 6 Prozent?

JM: Ja, bezogen auf alle Publikationen seit Mitte der 1980er-Jahre. Das ist zunächst ein ernüchternder Wert. Aber der Durchschnitt verdeckt eine spannende Dynamik: In den letzten Jahren ist der Anteil der Veröffentlichungen mit zugänglichem Code deutlich gestiegen, inzwischen liegt er bei über 20 Prozent.

Wir sehen also eine klare Entwicklung hin zu mehr Offenheit. Das liegt zum einen daran, dass immer mehr Journals die Bereitstellung von Code verlangen. Zum anderen ist es heute technisch wesentlich einfacher, Replikationsmaterial bereitzustellen. In den Anfangsjahren war das kaum möglich – der erste von uns gefundene Code war noch als Anhang zu einem gedruckten Paper veröffentlicht. Hinzu kommt, dass durch die Diskussion um Reproduktionskrisen das Bewusstsein für die Bedeutung von Offenheit gewachsen ist. Auch neue Technologien – etwa KI-gestützte Tools – können helfen, Hürden weiter zu senken. Deshalb bin ich zuversichtlich, dass dieser positive Trend anhält.

Ich denke, es ist für Fachzeitschriften relativ einfach umzusetzen, die Bereitstellung von Code zur Pflicht zu machen. Technisch reicht es oft, ein Häkchen zu setzen und einen Link zu einem externen Repositorium zu hinterlegen – sie müssen keine eigene Infrastruktur aufbauen. Deshalb gehe ich davon aus, dass sich diese Praxis zunehmend als Standard etabliert. Interessant ist auch, dass dadurch neue Formen von Forschung entstehen können: Wenn ausreichend Code verfügbar ist, lässt sich etwa analysieren, welche Variablen häufig verwendet werden oder wie sich methodische Ansätze über Zeit verändern. Der Code selbst wird damit zum Forschungsgegenstand.

Sie beschäftigen sich auch mit Coding-Fehlern. Was sind die häufigsten Fehlerarten? Und wie wirken sie sich auf die Replizierbarkeit aus?

JM: Es gibt verschiedene Typen von Fehlern. Ein häufiger, eher technischer Fehler ist, dass der Code nicht auf einem anderen Rechner läuft – etwa wegen falsch gesetzter Pfade, fehlender Dateien oder unklarer Softwareangaben. Ein etwas gravierenderer Fehler betrifft den Umgang mit fehlenden Werten. In Stata zum Beispiel werden fehlende Werte intern wie sehr große Zahlen behandelt. Wenn das nicht beachtet wird, kann das die Ergebnisse erheblich verfälschen: Wenn man zum Beispiel eine Variable erstellt, die angibt, ob ein Haushalt über oder unter dem Durchschnittseinkommen liegt, und fehlende Werte nicht richtig behandelt, landen Fälle mit fehlendem Einkommen fälschlich in der Gruppe mit überdurchschnittlichem Einkommen, weil fehlende Werte in Stata intern als sehr große Zahlen interpretiert werden. Je nach Anteil fehlender Werte kann das erhebliche Auswirkungen auf die Ergebnisse haben.

Solche Fehler sind meist unbeabsichtigt und technischer Natur. Daneben gibt es auch Fälle bewusster Manipulation, etwa wenn Kennzahlen verändert werden, um Ergebnisse visuell „schöner“ erscheinen zu lassen. Solche Fälle sind aber selten. Das zeigen auch Metastudien, in denen viele Reproduktionen durchgeführt wurden: Die große Mehrheit der Studien ist reproduzierbar – vorausgesetzt, Code und Daten sind verfügbar. Das hat auch mein eigenes Vertrauen in die wissenschaftliche Praxis gestärkt. Einzelne Fälle von Fehlverhalten erhalten oft viel Aufmerksamkeit, aber sie sind nicht repräsentativ für die Breite der Forschung.

Letzte Frage: Wenn Sie Nachwuchsforschenden begegnen, die bisher wenig Berührungspunkte mit Open Science oder Replikation hatten, aber Interesse zeigen – was wären praktische Einstiegsempfehlungen?

JM: Ich würde empfehlen, an einem Replication Game teilzunehmen. Ich habe das mehrfach gemacht. Es ist eine konzentrierte, eintägige Veranstaltung, bei der man gemeinsam mit anderen versucht, eine Studie zu reproduzieren. Die meisten Formate sind inzwischen hybrid, was die Teilnahme erleichtert. Neben dem fachlichen Austausch lernt man viel über Datenaufbereitung, Codierung und das Schreiben von wissenschaftlichen Texten. Und es hat mir so viel Spaß gemacht, dass ich jetzt selbst mit dem Institute for Replication zusammen Ende September am 30. September ein Replication Game an der FU in Berlin ausrichte. Kleiner Werbeblock hier.

Ich finde das Konzept des Institute for Replication sehr gelungen – insbesondere, weil es nicht auf Konfrontation zwischen Originalautor:innen und Replikator:innen setzt. Stattdessen werden beide Seiten einbezogen. Auch eines meiner eigenen Papers wurde dort einmal repliziert, was mir geholfen hat, die Perspektive der Originalautor:innen besser zu verstehen. Es ist sehr wohltuend, wenn man respektvoll behandelt wird – nicht herablassend oder bloßstellend, sondern als Teil eines gemeinsamen Prozesses zur Sicherung und Verbesserung wissenschaftlicher Qualität.

Hätten Sie noch einen zweiten Tipp? Etwas, das ebenfalls niedrigschwellig ist, Spaß macht und nicht zu viel Zeit in Anspruch nimmt?

JM: Mein zweiter Tipp wäre: möglichst früh mit Open-Science-Praktiken zu beginnen und sie direkt in den eigenen Workflow zu integrieren. Gerade in der Promotionsphase entwickeln viele ihren grundlegenden Arbeitsstil – und der prägt sich oft dauerhaft ein. Wer früh lernt, transparent zu dokumentieren, Code sauber zu strukturieren und Ergebnisse nachvollziehbar aufzubereiten, profitiert davon langfristig, sowohl fachlich als auch organisatorisch. Zugleich sollte man den Nutzen nicht nur für die Disziplin sehen, sondern auch für die eigene Arbeit. Diese Open-Science-Praktiken erleichtern nicht nur die Reproduzierbarkeit, sondern auch die eigene Nachvollziehbarkeit der eigenen Forschungsarbeiten über längere Zeiträume hinweg.

Vielen Dank!

*Das Gespräch wurde geführt am 19. Juni 2025 von Dr. Doreen Siegfried.

Über Prof. Dr. Jan Marcus

Dr. Jan Marcus ist Inhaber der Professur für Angewandte Statistik im Fachbereich Wirtschaftswissenschaft an der FU Berlin. Seine Forschung verbindet politisch relevante Fragestellungen mit der Anwendung neuester statistischer Verfahren zur Identifikation kausaler Effekte. Ein weiterer Fokus seiner Forschung liegt auf der Verbesserung wissenschaftlicher Standards, insbesondere im Bereich Replikation und Reproduzierbarkeit. Dabei setzt er sich für den transparenten Umgang mit Daten und Code ein und betont die zentrale Rolle von Replikationsmaterial für nachvollziehbare Forschung.

Seine Arbeit hat zu zahlreichen Veröffentlichungen in renommierten internationalen Fachzeitschriften geführt, darunter das American Economic Journal: Economic Policy, Journal of Human Resources, Journal of Public Economics und Journal of Health Economics. Er wurde unter anderem ausgezeichnet mit dem Deutschen Wirtschaftspreis der Joachim Herz Stiftung und einem Dissertationspreis der Studienstiftung des deutschen Volkes.

*Anmeldung zum Replication Game am 30. September 2025 an der FU Berlin: https://www.wiwiss.fu-berlin.de/forschung/laborscarcity/Dates/Replication-Game.html

Kontakt: https://www.wiwiss.fu-berlin.de/fachbereich/vwl/angewandte-statistik/Team/professor_innen/marcus/index.html

LinkedIn: https://www.linkedin.com/in/jan-marcus-1a819724b/

BlueSky: https://bsky.app/profile/janmarcus.bsky.social

ResearchGate: https://www.researchgate.net/profile/Jan-Marcus

OSF: https://osf.io/96vyp/

Zurück zum Open-Science-Magazin