Positiv auffallen mit Präregistrierungen

Dr. Florian Pethig über seine Open-Science-Erfahrungen

Die drei wesentlichen Learnings:

Die Präregistrierungsplattform AsPredicted.org ist einfach zu handhaben und erleichtert den Schritt zur ersten Präregistrierung.
Mit Präregistrierungen kann man im Peer Review positiv auffallen.
Forschungsdaten können auf Open Science Framework veröffentlicht werden. OSF bietet eine Integration mit GitHub.

Seit wann spielt das Thema Open Science für Sie eine Rolle?

FP: Als Wirtschaftsinformatiker habe ich mich schon immer mit Open Source beschäftigt. Als ich mich in der Algorithmen-Studie (Wie beeinflussen Algorithmen Chancen von benachteiligten Gruppen) damit beschäftigt habe, wie ich Experimente aufsetze, hat sich der Blick auf die Dinge geändert. Im Bereich Akzeptanz von Algorithmen gab es einige Psycholog:innen, die Open Science praktiziert haben. Das fand ich ziemlich interessant. Gerade auch ohne einen persönlichen Hintergrund mit Experimenten, konnte ich sehr gut nachvollziehen, was die Psycholog:innen gemacht haben. Das konnte ich dann auch als Best Practice für meine eigene Arbeit verwenden. Ich habe dadurch zum ersten Mal mit Amazon Mechanical Turk ein Onlineexperiment durchgeführt. Durch die veröffentlichten Daten der Psycholog:innen konnte ich alle Anforderungen viel besser nachvollziehen. Ich kannte mich vorher gar nicht aus mit Attention Checks oder Comprehension Checks. Wenn aber alle Materialien zur Verfügung stehen, kann ich auch als Information Systems Researcher sehr hochkarätige Experimente durchführen. Ich kann auf der praktischen Ebene die Experimente nachbauen und dabei unglaublich viel Handwerk lernen. Das war so ein Schlüsselmoment für mich, so dass ich entschieden habe, dass ich Open Science weiter verfolgen möchte.

Sie haben das Thema Präregistrierung ein wenig untersucht. Wie verändert sich aus Ihrer Sicht die Einstellung zum Thema Präregistrierung in Ihrem Forschungsfeld?

FP: Ich habe zusammen mit einem Studierenden untersucht, wie vorherrschend Präregistrierungen im Information-Systems-Bereich sind. In den acht Top Journals haben wir nur ein einziges präregistriertes Experiment gefunden, das auch erst im September 2021 erschienen ist. Grundsätzlich also eher noch etwas Neueres. Wir haben auch etwas tiefer geschaut. Präregistrierungen sind ja dann die Sachen, die an die Oberfläche kommen. Forschende beschäftigen sich schon im Vorfeld damit: Welche Veränderung müssen wir anstoßen? Wie stehen wir in Bezug auf Transparenz? Und da haben wir schon einige Aktivitäten gefunden. Zum Beispiel gibt es inzwischen ein Journal, dass sich nur mit Replikationsforschung beschäftigt. Es gibt eine große Replikationsstudie im Information-Systems-Bereich. Das erste Journal hat auch Registered Reports angeboten. Viele Editorials sind aber auch noch neu. Im Juni 2021 beispielsweise hat MIS Quarterly, ein Flagship Journal in unserem Feld, neue Transparenzrichtlinien herausgegeben. Die haben jetzt auch einen Transparency Editor. Es gibt Aktivitäten, aber es sind noch wenige Studien veröffentlicht.

Es sind also Outlets da, die jetzt nur noch mit Inhalt gefüllt werden müssen?

FP: So ist auf jeden Fall meine Wahrnehmung. Wir haben nicht nur im Information-Systems-Bereich geschaut. Wir haben uns auch den Bereich Management und Marketing angesehen, die unserer Disziplin am ähnlichsten sind, und dort haben wir mehr Präregistrierungen gefunden. 90 Paper seit 2016. Es war zu sehen, dass es hier deutliche Tendenzen zu mehr Präregistrierungen gibt. Wir sehen auch immer mehr Journals, die vorher keine Präregistrierung veröffentlicht haben, jetzt damit beginnen.

Wie erklären Sie sich diese Veränderungen?

FP: Wenn wichtige Journals wie MIS Quarterly mit Tranzparenzrichtlinien starten, dann ändern sich peu à peu auch die Richtlinien der anderen Journals. Und das ist ein guter Start. Braucht aber durch die Reviewzyklen natürlich auch eine bestimmte Zeit. Es hilft natürlich auch den Forschenden, wenn sie einen Anknüpfungspunkt haben, wenn das von den Journals auch gefordert wird.

Warum ist AsPredicted.org beliebter als Open Science Framework?

FP: Es ist eine sehr einfache Plattform mit einem kurzen Fragebogen und geht relativ schnell. Die Hemmschwelle ist dadurch aus meiner Sicht einfach sehr niedrig. Durch die einfache Handhabung verliert man schnell die Angst vor der ersten Präregistrierung. Das war bei mir auch der Fall, durch die leichte Handhabung konnte ich nicht viel falsch machen.

Wie war die Resonanz aus der Community bei Ihren Präregistrierungen?

FP: Die Resonanz, die wir im Peer Review bekommen haben, war ziemlich gut. Besonders ein Reviewer hat sehr positives Feedback gegeben. Wir haben die Datenanalyse bei JupyterNotebook aufbereitet und das in Verbindung mit der Präregistrierung wurde uns sehr positiv ausgelegt. Ich konnte direkt den Output von dem Code zeigen. Die Leser:innen konnten da einfach durchgehen. Im OSF, wo wir das gepostet haben, wurde es gleich im richtigen Format angezeigt. Ich glaube, dadurch, dass das noch nicht unbedingt der Standard ist, kann man hier positiv auffallen.

Sie haben sich auch mit dem Thema Datenversionskontrolle beschäftigt. Warum ist das ein Thema?

FP: Bei der Corona-Forschung hat man es oft gesehen, dass Leute ihre Daten in verschiedenen Wellen veröffentlicht haben. Erste Veröffentlichung zum Datensatz, zweite Veröffentlichung zum erweiterten Datensatz. Das bildet aber in der Praxis die Ausnahme. Für die Reproduzierbarkeit des eigenen Projekts in der eigenen Umgebung ist es meiner Meinung sehr wichtig und das wollte ich auch untersuchen. Durch große Datensätze ergeben sich neue Herausforderungen. Wenn man mehrere Gigabyte an Datensätzen hat und bestimmte Vorverarbeitungsschritte darauf laufen lässt, wenn man sich beispielsweise große Textdaten anschaut und eine Textanalyse machen möchte und den Text in bestimmter Weise modifiziert, dann entsteht daraus eine neue Version des Textkorpus. Für die Vorverarbeitungsschritte braucht man oft aber große Rechenpower und es ist sehr zeitintensiv. Man durchläuft aber nicht immer den kompletten Prozess von Anfang bis Ende, sondern man hat Datensätze dazwischen. Wenn man nicht korrekt dokumentiert, welcher Quellcode zu welchem Datensatz geführt hat, hat man am Schluss zwar einen finalen Datensatz, weiß aber nicht mehr, wie man vom originalen Datensatz dahin gekommen ist. Bei Programmiercodes wird z.B. GitHub genutzt, da kann man alle Änderungen über die Zeit hinweg tracken. Bei großen Datensätzen hingegen ist das nicht so einfach, dafür ist GitHub nicht geeignet. Und ich habe untersucht, welche Tools es eben für die diese gigabyte-großen Datensätze gibt, um Änderungen zu tracken.

Können Sie ein Tool empfehlen?

FP: Ich habe alles getestet und es hat in der Theorie auch geklappt. Positiv aufgefallen ist Data Version Control (DVC), hier speichert man Metadaten über den eigentlichen Datensatz. Also die Metadaten können in GitHub liegen und Änderungen können, z.B. von meinem Co-Autor, via DVC pull nachverfolgt werden und er erhält die aktuellste Version des Datensatzes. Es ist aber recht umfangreich und kompliziert, sodass ich es für den Alltag nicht empfehlen kann.

Stellen Sie Poster- oder Vortragsfolien online?

FP: Früher war ich damit eher sparsamer, habe wenige Sachen proaktiv in die Community zurückgespielt oder gepostet. Das hat sich aber durch Corona schon geändert, da jeder Vortrag grundsätzlich aufgezeichnet wird und oftmals auch im Nachgang öffentlich zugänglich ist, beispielsweise bei Konferenzen. Meinen Vortrag beim Open Science Day habe ich auch direkt in mein GitHub-Repository hochgeladen und öffentlich verfügbar gemacht. Also ich teile jetzt mehr als früher, weil ich auch den Benefit davon sehe. Und durch die Open-Science-Community wurde mir auch ein bisschen die Angst genommen, dass man nicht immer nur perfekte Sachen zur Verfügung stellen muss. Die Information kann trotzdem hilfreich sein, auch wenn es noch nicht im Endstadium ist. Ich lege sukzessive den Perfektionismus ab, auch wenn es mir nicht immer leicht fällt.

Welchen Benefit können Sie beobachten?

FP: Jetzt zum Beispiel, weil bei Twitter über meinen Vortrag beim Open Science Day berichtet wurde, habe ich mehr Follower bekommen und kann meine eigenen Forschungsergebnisse einer größeren Basis zur Verfügung stellen. Ich erfahre auch eine gewisse Wertschätzung für meine eigene Arbeit, wenn etwas getweetet wird. Es ist ja schön zu sehen, dass es Leute interessiert.

Sie erheben selbst Forschungsdaten, wo veröffentlichen Sie die?

FP: Bei meinem neuen Projekt, bei dem alles öffentlich zugänglich ist, veröffentliche ich die auf Open Science Framework. Es gibt da eine Integration mit GitHub, sodass man tatsächlich sein Repository dort verlinken kann bzw. man kann die Daten auch selbst hochladen. Das ist sehr komfortabel. Im Paper habe ich dann einen Link zum Repository, inkl. Sub-Repositories für Daten, Codes, Survey-Materialien etc., aber ich verlinke auch innerhalb des Papers auf bestimmte JupyterNotebooks, was den Zugang für Interessierte an den Daten vereinfacht.

Haben Sie Tipps für Interessierte, worauf man achten sollte?

FP: Ich fand das Fellowship-Programm sehr hilfreich, allein schon wegen der vielen unterschiedlichen Begriffe, die ich dort zum ersten Mal so richtig gelernt habe. Ich habe jetzt Ansprechpartner:innen in verschiedenen Bereichen, was ich sehr hilfreich finde. Meine Mentorin, Tamara Heck, beschäftigt sich zum Beispiel viel mit OER. Ich kann sie also jetzt jederzeit um Rat fragen, wenn es um Open Educational Resources geht. Ich finde es wichtig, eine Community zu finden. Und ansonsten einfach machen, ausprobieren. Etwas präregistrieren, laufen lassen, zum Journal schicken und schauen wie die Resonanz ist. Darüber kann man sich das meiner Meinung auch erarbeiten.

Wie kann es gelingen, mehr Wirtschaftsforschende von Open Science zu überzeugen?

FP: Man braucht Ansprechpartner:innen vor Ort an der jeweiligen Institution. An der Universität Mannheim haben wir das Open Science Office mit dem Open Science Officer, der bei Fragen unterstützen und beraten kann. Das ist total wichtig. Bevor ich meine Daten öffentlich stelle, kann ich dort auch nochmal Rücksprache halten. Ansprechpartner:innen finde ich essenziell. Zum anderen helfen Anreize. Im Rahmen des Open Science Offices an der Universität Mannheim beispielsweise wurden auch Open Science Grants ausgeschrieben, also Projekte, die gefördert wurden. Ich habe hier zum Beispiel eine Förderung von fast 5.000 EUR bekommen. Damit kann ich jetzt meine Feldstudien umsetzen.

Vielen Dank!

Das Interview wurde geführt von Dr. Doreen Siegfried.

Das Interview wurde geführt am 24.09.2021.

Über Dr. Florian Pethig

Dr. Florian Pethig ist Wirtschaftsinformatiker und akademischer Rat im Bereich Information Systems am Lehrstuhl für Enterprise Systems an der Universität Mannheim. In seiner Forschung beschäftigt er sich mit den gesellschaftlichen Auswirkungen von IT, Data Analytics und Technologieakzeptanz. Er wurde unter anderem ausgezeichnet mit dem Open Science Grant der Universität Mannheim und ist aufgenommen in das Fellow-Programm Freies Wissen der Wikimedia Deutschland.

Kontakt: https://www.bwl.uni-mannheim.de/hoehle/team/wissenschaftliche-mitarbeiter/florian-pethig/

ORCID-ID: 0000-0002-6001-2391

Twitter: https://twitter.com/florianpethig

LinkedIn: https://www.linkedin.com/in/florianpethig/

Zurück zum Open-Science-Magazin