Keine Angst vor öffentlichem Code

Hans-Martin von Gaudecker über seine Open-Science-Erfahrungen

Die drei wesentlichen Learnings:

Wer als Ökonom:in softwaretechnische Vorlagen für ökonomische Forschungsprojekte benötigt, die bereits eine Ordnerstruktur vorgeben, wird fündig auf der Seite https://open-econ.org/.
Es lohnt sich, zu Beginn der Forschungsarbeit ein paar Tage Zeit zu investieren, um sich über seine Werkzeuge im Klaren zu sein.
Das Tool pytask automatisiert die Ausführung aller Schritte in einem Forschungsprojekt von Datenaufbereitung bis zur Erstellung des Berichts.

Was hat es mit Open Source Economics auf sich?

HMvG: Open Source Economics ist eine Gruppe getrieben von Student:innen, Doktorand:innen und Postdocs, die sich mit dem Programmieren beschäftigen und sehr dem Open-Source-Gedanken anhängen. Die Plattform hat vor Ort kollaborativen Charakter, man tauscht sich über zum Beispiel Codes aus und schreibt auch gegebenenfalls etwas zusammen. Open Source Economics ist aber offen für alle Interessierten. Der Code steht auf GitHub und jede:r kann etwas dazu beitragen. Wir haben beispielsweise bei unserem Paket Estimagic auch Mitstreiter aus Barcelona. Open Source Economics steht für Projekte. Ein wesentliches Projekt bei Open Source Economics, das wir stark vorantreiben, sind beispielsweise Vorlagen für ökonomische Forschungsprojekte. Die Vorlagen bieten direkt das Gerüst für die spätere Arbeit, also die Ordnerstruktur. Und ein Beispiel wird direkt mitgeliefert, da muss nur noch der Code an den entsprechenden Stellen ergänzt oder erweitert werden. Die Nutzer:innen haben also auf ihrem Rechner schon mal die komplette Struktur und müssen sich hierüber dann keine Gedanken mehr machen. Das reduziert die Arbeit eines ganzen Tages auf eine gute halbe Stunde. Zur Vorlage gehört auch das Programm pytask. Durch die Ordnerstruktur zerlegt man das Projekt in Teile für die Datenaufbereitung, Analyse, Grafiken, usw. Diese Teile hängen voneinander ab und müssen synchronisiert werden. Zum Beispiel müssen Modelle neu geschätzt werden, wenn sich die Daten ändern. An alle Abhängigkeiten zu denken, ist aber zu anstrengend und fehleranfällig. Mit pytask lässt sich die Synchronisierung der Teile automatisieren und spart dadurch Forscher:innen Zeit und Gehirnschmalz.

Wie viele derartige Vorlagen gibt es auf Open Source Economics?

HMvG: Das ist ein Prototyp, eine generische Vorlage, welche die Nutzung mit vier verschiedenen Programmiersprachen erlauben wird. Wenn wir mit der nächsten Revision fertig sind, werden das Python, R, STATA und Julia sein.

Welche Vorteile hat es für Sie, mit pytask zu arbeiten?

HMvG: Ich glaube, das ist der einzige Weg, um Sachen vernünftig reproduzierbar zu machen. Sobald ich etliche Zwischenschritte habe, an die ich denken muss – Abspeichern, die verschiedenen Skripte nacheinander durchlaufen lassen, Kopieren, Einfügen ins Worddokument usw. – habe ich keine Chance, dass ich das für semikomplexe Papiere reproduzierbar hinbekomme. Und wenn dann noch ein halbes Jahr zwischen Einreichung beim Journal und Revise and Resubmit liegt, besteht auch keine Chance, dass man sich an die Schritte in der richtigen Reihenfolge erinnert. Es sei denn, ich habe das im Programm sorgfältig dokumentiert. Meiner Meinung nach gibt es wenig vernünftige Tools, um wirklich die ganze Analyse von vorne bis hinten durchlaufen zu lassen – und zwar so, dass gewisse Fehler auch ausgeschlossen werden. Es gibt selten Tools, die es ermöglichen, dass, nachdem ich einzelne Schritte darin verändert habe, danach nur noch die Teile durchlaufen, die nötig sind. Am Ende spare ich also viel Zeit, auch dadurch, dass pytask Schritte parallel ausführen kann.

Sind alle Beteiligten von Open Source Economics eher auf der aktiven Seite oder sind es hauptsächlich Nutzer:innen?

HMvG: Im Rahmen dieses Projekts beides. Das kann sich jede:r anschauen und nutzen. Es hilft, wenn die Leute schon mal gesehen haben, was ich in meinem Kurs „Effective programming practices for economists“ mache. Aber es ist auch nicht so, dass jede:r, der oder die diesen Kurs besucht, hinterher in der Gruppe aktiv ist. Drei, vier Personen gibt es, die aktiv an dem Code für die Templates mitarbeiten.

Was ist das übergeordnete Ziel, das Sie mit Open Source Economics verfolgen?

HMvG: Wir schauen mit Open Source Economics in zwei Richtungen. Zum einen geht es darum, sich gruppenintern oder lokal über Codes auszutauschen und gewisse Synergien und Komplementaritäten aus der Gruppe heraus zu nutzen. Zum anderen, wenn wir an den Outreach denken, geht es darum, qualitativ hochwertige Software bereitzustellen, die andere Leute nutzen können. Es geht darum, reproduzierbare Forschung voranzutreiben. Ein anderes Projekt von uns heißt „Estimagic“, eine Sammlung von numerischen Optimierern und anderen Werkzeugen, die helfen, Parameter von wissenschaftlichen Modellen zu schätzen. Estimagic versucht, zwei Probleme zu lösen: Erstens gibt es zwar viele sehr gute Algorithmen, die frei verfügbar sind. Allerdings werden sie alle auf unterschiedliche Art und Weise aufgerufen, so dass es schwer ist, zwischen ihnen zu wechseln. Genau das ist aber nötig, um herauszufinden, welcher Algorithmus am besten zu einem Modell passt. Zweitens werden viele Schritte, die zur Schätzung von Parametern notwendig sind, in jedem Projekt neu implementiert, was häufig mit Fehlern verbunden ist. Eigentlich sind diese Schritte aber nicht spezifisch auf ein Modell zugeschnitten. Estimagic wird von uns und anderen in vielen Projekten eingesetzt. Es spart Zeit und hilft, unsere Ergebnisse transparenter und weniger fehlerbehaftet zu machen.

Sie geben ja den Kurs „Effective programming practices for economists“ für Masterstudent:innen und Doktorand:innen an der Universität Bonn. Sehen Sie nach dem Kurs, dass die Download- oder Besucherzahlen der Website ansteigen?

HMvG: Ich habe länger nicht mehr auf die Nutzerstatistik der Webseite geschaut, muss ich gestehen. Ich sehe aber einen deutlichen qualitativen Effekt auf das, was die Studierenden in ihren Masterarbeiten und die Doktorand:innen in ihren Promotionen machen. Zumindest bei denjenigen, die es von Beginn an nutzen. Das variiert ja natürlich. Bei meinen eigenen Doktorand:innen achte ich mittlerweile sehr darauf, dass sie es von Anfang an tun. Es ist ein Angebot, dass mehr und mehr Leute nutzen, viel mehr als vor zehn bis zwölf Jahren, als ich damit angefangen habe. Das Reproduzieren ist mir immer noch sehr wichtig, aber mehr ein angenehmer Nebeneffekt davon, dass man eben vernünftige Softwareentwicklungstechniken benutzt. Und das Aneignen von derartigen Skills ist aktuell sehr attraktiv.

Können Sie sagen, wie weit Open Source Economics schon in die studentische Lehre außerhalb Bonns eingedrungen ist?

HMvG: Ich unterrichte das Programmieren regelmäßig als Blockkurs für Wirtschaftsstudierende, unter anderem in Berlin, München und Zürich. Und demnächst gibt es auch Lehrvideos.

Haben Sie Tipps, worauf Wissenschaftler:innen, die bislang noch gar nichts mit Open Science zu tun hatten, beim Einstieg ins Thema besonders achten sollten?

HMvG: Ja, ich würde sagen: habt keine Angst davor, dass Euer Code online ist. Es nimmt Euch keiner etwas weg. Nehmt Euren Code ernst und benutzt vernünftige Tools. Man kann durch die Nutzung falscher Werkzeuge alles kaputt machen. Man sollte schon ein paar Tage Zeit investieren, um sich über seine Werkzeuge im Klaren zu sein.

Wie schätzen Sie die zukünftige Bedeutung von Open Science in der Wirtschaftsforschung ein?

HMvG: Ich glaube, es wird immer wichtiger, allerdings ohne dass die Praxis zu dogmatisch wäre. Manchmal habe ich aber den Eindruck, Open Science kann man gar nicht richtig machen, denn das perfekte Ideal erreicht man nie. Der Grundgedanke dahinter ist richtig und wichtig. Es kann aber nicht immer alles veröffentlicht werden. Volle Transparenz werde ich nicht herstellen können. Ich denke, wir sind in der VWL auf einem relativ guten Weg. Die Verfügbarkeit von Code und Daten hat sich in den letzten zehn Jahren, würde ich sagen, zumindest bei einigen der besten Journale wirklich von einem Lippenbekenntnis zu einem ernsthaften Commitment geändert. Das ist wirklich ein Mehrwert. Wenn ich etwas im American Economic Review veröffentliche, dann weiß ich, ich kann den Code herunterladen und verwenden. Das war vor zehn Jahren nicht so. Wenn wir alle mehr ordentliche automatisierte Werkzeuge benutzen, desto eher machen wir Forschung reproduzierbar.

Vielen Dank!

Das Interview wurde geführt von Dr. Doreen Siegfried.

Das Interview wurde geführt am 11.03.2022.

Über Prof. Dr. Hans-Martin von Gaudecker

Prof. Dr. Hans-Martin von Gaudecker ist Professor für Angewandte Mikroökonomie am Institut für Volkswirtschaftslehre der Universität Bonn. Außerdem ist er Teamleiter am IZA und wissenschaftlicher Mitarbeiter am Reinhard Selten Institut, CESifo, Netspar und dem Munich Center for the Economics of Aging. Seine Forschungsinteressen drehen sich um die Modellierung des Lebenszyklusverhaltens von Haushalten und um die Information der öffentlichen Politik, die darauf abzielt, Ungleichheit zu reduzieren. Die Methoden, die Prof. Dr. Hans-Martin von Gaudecker verwendet, erfordern einen intensiven Einsatz moderner Computerinfrastruktur; die Reproduzierbarkeit der Ergebnisse ist unter diesen und anderen Umständen eine Herausforderung. Er hat daher Software entwickelt, die es Forscher:innen erleichtern soll, diese Herausforderung zu meistern. In seiner Lehre konzentriert er sich darauf, neben ökonometrischen und computergestützten Techniken auch die Wirtschaftswissenschaften zu vermitteln. Prof. Dr. Hans-Martin von Gaudecker ist Associate Editor des Journals Journal of Comments and Replications in Economics (JCRE).

Kontakt: https://www.wiwi.uni-bonn.de/gaudecker/

ORCID-ID: https://orcid.org/0000-0001-8519-9781

Twitter: https://twitter.com/econ_hmg

ResearchGate: https://www.researchgate.net/scientific-contributions/Hans-Martin-von-Gaudecker-14242336

GitHub: https://github.com/hmgaudecker

Zurück zum Open-Science-Magazin