Mit Crowd Science die internationale Wissenschaftselite kennenlernen
Felix Holzmeister über seine Team-Science-Erfahrungen
Die drei wesentlichen Learnings:
- Um als Disziplin ernst genommen zu werden, müssen die eigenen Forschungsansätze regelmäßig kritisch hinterfragt werden. Das ist die Grundvoraussetzung dafür, dass eine wissenschaftliche Disziplin überhaupt Renommee entwickeln kann.
- Crowd Science öffnet neue Blickwinkel auf zentrale Aspekte des wissenschaftlichen Forschungsprozesses und liefert Ansätze, um die Qualität und Reliabilität von Forschung zu verbessern
- Crowd Science hilft Nachwuchswissenschaftler:innen, sich mit hochrangigen Peers aus aller Welt zu vernetzen, und große Teamprojekte können ein Alleinstellungsmerkmal in Bewerbungsgesprächen sein.
Seit wann sind Sie für das Thema Open Science sensibilisiert?
FH: Das Interesse kam mit Beginn meines PhD-Studiums 2014/2015. Das erste Forschungsprojekt, in dem ich aktiv mitgewirkt habe, war eine großangelegte Replikationsstudie. Seitdem hat mich das Thema nicht mehr losgelassen. Neben meiner Forschung im Bereich der Verhaltensökonomik, waren meta-wissenschaftliche Fragestellungen und Open Science von Anfang an mein zweites Standbein.
Gibt es Open-Science-Praktiken, die für Sie besonders relevant sind?
FH: Ich bin ein großer Verfechter von Transparenz in jeglicher Hinsicht. Ich würde sogar sagen, dass Transparenz – neben den Anreizstrukturen in der wissenschaftlichen Praxis – der Schlüssel dazu ist, viele Probleme zu adressieren, die in den vergangenen Jahren durch meta-wissenschaftliche Studien aufgezeigt wurden. In einem ersten Schritt sollte versucht werden, Forscher:innen zu sensibilisieren und davon zu überzeugen, dass Transparenz im Forschungsprozess eine entscheidende Rolle zukommt. In einem weiteren Schritt sollte daran gearbeitet werden, neue – transparente – Standards zu setzen. Das ist aber leider schwieriger als es scheint, da die Anreizstruktur in der Wissenschaft dem Prozess entgegenwirkt.
Was ist Gegenstand Ihrer Metaforschung zu Replizierbarkeit?
FH: Die ersten Projekte waren stark inspiriert durch das Reproducibility Project:Psychology. Im Wesentlichen haben wir in einem ersten Anlauf genau dasselbe gemacht – nur im Bereich der experimentellen Wirtschaftsforschung und in deutlich kleinerem Rahmen. Wir haben 18 Studien, die zwischen 2011 und 2014 im American Economic Review oder im Quarterly Journal of Economics publiziert wurden, mit so wenigen Abweichungen von der Originalstudie wie möglich wiederholt. In den meisten Fällen haben wir mit den Originalmaterialien gearbeitet, die dankenswerterweise von den Originalautor:inn:en bereitgestellt wurden. Wir konnten beobachten, dass nur rund 60 Prozent der Forschungsergebnisse repliziert werden konnten, und dass die Effektgrößen in den Replikationen im Durchschnitt deutlich geringer sind. Wir haben das Ganze in weiterer Folge ein zweites Mal mit Studien durchgeführt, die zwischen 2010 und 2015 in Science und Nature publiziert worden sind, mit – im Kern – derselben Conclusio. Am Ende des Tages scheint die Frage nach der Replizierbarkeit von experimentellen Ergebnissen in den Sozialwissenschaften auf einen Münzwurf hinauszulaufen. Wir sind leider weit entfernt von einer Situation, wo man absolutes Vertrauen in publizierte wissenschaftliche Ergebnisse setzen könnte.
Wie war die Resonanz auf diese Studien?
FH: Die Resonanz war tendenziell positiv, weil Kolleg:inn:en sehr wohl erkennen, dass es ein Problem gibt, das es zu adressieren gilt. Aber es gibt natürlich auch gegenteilige Meinungen. So sind zum Beispiel einige Forscher:innen der Anschauung, dass die Ressourcen, die Replikationsstudien erfordern, besser in die Generierung neuer Erkenntnisse investiert seien. Obwohl sehr viele Forscher:innen Großprojekte in dieser Form begrüßen, fehlen leider nach wie vor die Anreize, dass mehr Replikationen durchgeführt werden. Es ist meiner Meinung nach aber auch zu wenig über das Thema „Replizierbarkeit“ und dessen Relevanz bekannt. Auch in den Reihen der Originalautor:inn:en war die Resonanz im Großen und Ganzen positiv, aber es fühlten sich auch einige auf den Prüfstand gestellt. Wichtig ist, dass es bei diesen groß angelegten Projekten ganz und gar nicht um das Ergebnis der Replikation eines einzelnen Papers geht, sondern um die durchschnittlichen Replikationsraten über alle Studien im Sample. Was in dieser Hinsicht oft ein bisschen vernachlässigt wird, ist, dass Replikationen denselben Fehlerquellen unterliegen wie die Originalstudien, wenn auch nicht notwendigerweise im gleichen Ausmaß.
Haben Sie erlebt, dass sich die Wirtschaftsforschung durch die Ergebnisse von derartigen Metastudien mehr mit sich selbst beschäftigt hat?
FH: Definitiv. Wir haben in den letzten Jahren eine deutliche Veränderung der Forschungspraktiken erlebt. Von Präregistrierungen von Studiendesigns, über höhere Transparenz und Offenheit bis hin zu mehr Open-Access-Publikationen – Open Science hat in vielerlei Hinsicht Einzug in die Forschung genommen. Das Reproducibiltiy Project: Psychology hat einen Stein ins Rollen gebracht und dazu geführt, dass in der wissenschaftlichen Community ein Bewusstsein für fragwürdige Forschungspraktiken geschaffen wurde. Wenn man als Disziplin ernst genommen werden will, muss man sich selbst regelmäßig kritisch begutachten. Das ist die Grundvoraussetzung dafür, dass ein wissenschaftliches Feld überhaupt Renommee entwickeln kann. Der selbstkorrigierende Prozess ist ein entscheidendes Fundament in der Wissenschaft. Dazu muss Selbstkritik aber natürlich salonfähig sein.
Untersuchen Sie in der Metaforschung neben der Replizierbarkeit noch andere Aspekte?
FH: Ja, wir haben in den letzten Jahren diverse Crowd-Science-Projekte umgesetzt – Studien, in denen bis zu 350 Autor:innen in einem einzelnen Forschungsprojekt einbezogen wurden. Zum Beispiel haben wir zwei der bislang größten Many-Analysts-Studien durchgeführt, um zu untersuchen, wie groß die Heterogenität in wissenschaftlichen Ergebnissen sein kann. In beiden Projekten haben wir weltweit Forscher:innen eingeladen, dieselben von uns festgelegten Hypothesen basierend auf demselben Datensatz zu testen.
Wie viele Analysepfade wurden da eingeschlagen?
FH: In der ersten Studie waren rund 80 Teams involviert, und kein einziges Team schlug denselben Pfad ein, um zu einem Ergebnis zu gelangen. Entsprechend groß war auch die Variabilität der Ergebnisse und Schlussfolgerungen. Wir baten die Teams in unserem Projekt, dieselben neun Hypothesen basierend auf demselben Datensatz zu adressieren. Für vier dieser Hypothesen zeichnete sich ein breiter Konsens ab: Nur ca. zehn Prozent der Teams wichen in ihrer Schlussfolgerung von der Mehrheit ab. Für die restlichen fünf Hypothesen erwies sich die Unsicherheit als deutlich größer; die Uneinigkeit darüber, ob die Hypothesen zu verwerfen sind oder nicht, war unter den Teams sehr hoch.
Das heißt, trotz 80 unterschiedlicher Analysepfade kann man bei vier Hypothesen von einem robusten Ergebnis sprechen, das felsenfest steht?
FH: Das ist schwierig. Ein „felsenfest“ existiert in den Sozialwissenschaften grundsätzlich nicht. Aber es ist ein Zeichen von Robustheit. Allerdings lässt sich Robustheit von Forschungsergebnissen nicht so einfach generalisieren. Das zeigt sich beispielsweise anhand einer weiteren Studie. Wir haben kürzlich das bislang größte Many-Analysts-Projekt umgesetzt, basierend auf einem Datensatz mit rund 720 Millionen Beobachtungen, der uns von der Deutschen Börse zur Verfügung gestellt wurde. Dafür konnten wir zu unserer großen Freude 346 Kollaborator:inn:en gewinnen. Über 160 Teams haben denselben Datensatz auf sechs von uns definierte Hypothesen hin getestet. Für jede der sechs Hypothesen gibt es Teams, die einen signifikant positiven Zusammenhang finden, und Teams, die einen signifikant negativen Zusammenhang identifizieren. Die Heterogenität in empirischen Resultaten, die sich alleine durch unterschiedliche Analysemethoden ergibt, kann also sehr substantiell sein. Der Forschungsprozess beinhaltet eine Unmenge an Freiheitsgraden, sei es die Operationalisierung von Variablen, die Annahme von theoretischen Modellen, die Aggregation von Daten, das Behandeln von Ausreißern, die Auswahl eines statistischen Modells, die Berücksichtigung von Kontrollvariablen, usw. Der Weg von den Rohdaten bis hin zum Ergebnis ist so verzweigt und erfordert so viele Entscheidungen, dass selbst für ein und denselben Datensatz sowohl signifikant positive als auch signifikant negative Ergebnisse für dieselbe Hypothese erzielt werden können.
Gibt es für die verschiedenen Analysepfade dann auch ein Review?
FH: Wir haben in unseren Projekten immer versucht, eine hohe Qualität sicherzustellen, indem wir bestimmte Teilnahmekriterien festgelegt haben; unter anderem Fachzugehörigkeit, einschlägige Ausbildung, Publikationen in der relevanten Disziplin, etc. Wir achten darauf, dass nur etablierte Wissenschaftler:innen als Analysten involviert sind. Im Finance Crowd Analysis Project hatten wir zudem ein Peer Assessment; allerdings mehr in Form einer Feedbackschleife als in Form eines Peer Review. Das heißt, in einer ersten Phase des Projekts erhielten die Teams den Datensatz sowie die zu testenden Hypothesen und hatten rund zwei Monate Zeit, die Daten auszuwerten und die Auswertungsmethodik sowie die Ergebnisse in einem Short Paper zusammenzufassen. Diese Short Papers haben wir dann von unabhängigen Expert:innen begutachten lassen, die für jede einzelne Hypothese ein Rating sowie Feedback bezüglich der Methodik abgegeben haben. Dieses Feedback haben dann wiederum die Teams erhalten, die ihre Ergebnisse anschließend überarbeiten und erneut einreichen konnten. In einem weiteren Schritt wurden den Teams die fünf am besten bewerteten Short Papers bereitgestellt. Die Teams erhielten also indirektes Feedback darüber, welche Methodik und welche Resultate von unabhängigen Expert:innen am besten beurteilt wurden. Wieder konnten die Teams ihre eigene Analyse überarbeiten und ihre Ergebnisse erneut einreichen. Die Ergebnisse unserer Studie deuten darauf hin, dass Feedbackschleifen tatsächlich dazu beitragen können, die Heterogenität von Ergebnissen zu reduzieren. Die Variabilität in den finalen Ergebnissen bleibt aber trotzdem sehr groß.
Was lernt die Wissenschaft daraus, außer dass es viele Wege und Ergebnisse gibt?
FH: Einerseits zeigt die Variationsbreite von Ergebnissen eine Form von Unsicherheit bezüglich des tatsächlichen Effekts auf, an dem wir interessiert sind, die mit herkömmlichen Mitteln der statistischen Inferenz unberücksichtigt bleibt. Andererseits veranschaulicht die Variabilität in Resultaten, wie groß der Handlungsspielraum für fragwürdige Praktiken ist, wie z.B. das selektive Reporting von signifikanten Ergebnissen und p-Hacking. Wissenschaftler:innen arbeiten unter einer Anreizstruktur, die positiven Ergebnissen mehr Wert beimisst als Null-Resultaten. Anders ausgedrückt: Forscher:innen haben einen Anreiz, sich genau jenen Analysepfad herauszupicken, der das Ergebnis liefert, das man gerne hätte. Je größer die Freiheitsgrade und die daraus resultierende Heterogenität in Ergebnissen ist, desto einfacher ist es eben, ein signifikantes Resultat zu finden.
Was sind ihrer Meinung nach gute Praktiken, dem entgegenzuwirken?
FH: Natürlich können fragwürdige Praktiken wie p-Hacking oder HARKing (Anm.: „Hypothesizing After Results are Known“) mittels Präregistrierung der geplanten Datenauswertung unterbunden werden. Wo Präregistrierung allein aber nicht hilft, ist die Unsicherheit bezüglich des Ergebnisses abzubilden. In einer Präregistrierung wähle ich in der Regel eben auch nur einen von möglicherweise sehr vielen plausiblen Wegen. Die Unsicherheit darüber, welche Ergebnisse durch andere plausible Analysepfade resultieren würden, bleibt bestehen. Eine Möglichkeit, die immer populärer wird, sind sogenannte Multiverse Analyses oder Specification Curve Analyses. Das heißt, man wählt die wesentlichen Entscheidungspunkte eines Analysepfads aus und definiert für jeden dieser Entscheidungspunkte mögliche plausible Entscheidungen. Dann kombiniert man alle Möglichkeiten faktoriell, so dass sich ein Multiversum an Pfaden aufspannt. Anstatt einen einzelnen, mehr oder weniger beliebigen Analysepfad zu wählen, analysiert man dann alle Pfade dieses Multiversums und erhält nicht nur ein Ergebnis, sondern eben eine Vielzahl – eine Verteilung – von möglichen Resultaten. Auf diesem Weg lässt sich anschaulich beschreiben, wie sensitiv die Schlussfolgerung auf gewisse analytische Entscheidungen ist.
Welches Feedback bekommen Sie auf solch groß angelegten Projekte?
FH: Das Feedback ist eigentlich größtenteils sehr positiv. Forscher:innen finden es in der Regel spannend, einen kritischen Spiegel vorgehalten zu bekommen. Aber es gibt natürlich auch kritische Stimmen – und das ist auch gut so. Auch meta-wissenschaftliche Beiträge sollten differenziert beurteilt werden, um weitere Entwicklungen anzutreiben.
Der Ansatz als solcher ist ein recht innovativer Weg und wie Sie sagen, auch längst kein Mainstream. Hat Ihnen diese Arbeit schon einmal Vorteile gebracht, wenn Sie das in Berufungsgesprächen oder anderen Situationen erwähnt haben?
FH: Ja. Meine Beiträge zur Forschung in diesem Bereich haben unter anderem dazu beigetragen, dass ich meine aktuelle Position bekommen haben. Aber nicht alle Universitäten stehen Crowd Science so offen und aufgeschlossen gegenüber, weil die Evaluierbarkeit eine andere ist, als man es üblicherweise gewohnt ist. Wie beurteilt man den individuellen Beitrag eines Forschers bzw. einer Forscherin in einem Kollektiv von mehreren hundert Autor:inn:en? Da es nach wie vor in vielen sozialwissenschaftlichen Fakultäten üblich ist, dass zum Beispiel ein Punktesystem für Publikationen angewendet wird, das die Anzahl von Koautor:inn:en miteinbezieht, wird der Beitrag auf individueller Ebene leider oft nicht ausreichend wertgeschätzt. Für Jungwissenschaftler:innen fehlen also manchmal die Anreize, um sich Crowd-Science-Initiativen anzuschließen. Die Kontakte und Netzwerke, die aus solchen Projekten entstehen können, wiegen das aber gegebenenfalls wieder aus.
Haben die Großprojekte und auch die Beschäftigung generell mit dem Thema Ihr Netzwerk verändert?
FH: Ich bin schon sehr früh in ein internationales Netzwerk „gestolpert“. In den beiden Replikationsprojekten waren jeweils rund 20 Forscher:innen, darunter äußerst renommierte Wissenschaftler:innen aus der ganzen Welt. Das war für mich einerseits sehr inspirierend und lehrreich, andererseits ein Türöffner für langjährige Kooperationen. Tatsächlich arbeite ich seitdem kontinuierlich mit denselben Kolleg:inn:en zusammen – es hat sich also ein festes Netzwerk gebildet. Gerade für Jungwissenschaftler:innen ist ein internationales Netzwerk natürlich sehr wertvoll. Es ist ein ganz anderer Start in eine wissenschaftliche Karriere, als wenn man nur Kontakt zu zwei, drei Kolleg:inn:en hat, die im Büro nebenan sitzen.
Wer koordiniert bei Großprojekten die 300 Autor:innen?
FH: In Fall von #fincap war es tatsächlich ich. Ein Projekt mit mehreren hundert Autor:innen zu administrieren, klingt im ersten Moment sehr mühsam, aber tatsächlich habe ich die Erfahrung gemacht, dass sich Projekte dieser Art besser koordinieren lassen, als Teamarbeiten mit vier oder fünf Kolleg:inn:en. Einfach, weil alles in viel strukturierteren Bahnen verläuft. Es ist von Anfang an klar definiert, wer zu welchem Zeitpunkt wofür zuständig ist. Alle Teammitglieder arbeiten nach einem strikt vorgegebenen Zeitplan und klar definierten Aufgabenbereichen und Zuständigkeiten. Die Planung derartiger Projekte dauert dadurch in der Regel zwar länger, die Abwicklung des Projekts geht dafür aber umso effizienter vonstatten.
Ist Crowd Science ein Zukunftsmodell für die Sozialwissenschaften?
FH: In den Sozialwissenschaften ist Crowd Science ein Resultat dessen, was wir aus der Vertrauenskrise gelernt haben. Wir haben mit Problemen zu kämpfen, wie unzureichender statistischer Power, mangelnder Robustheit und Generalisierbarkeit von Ergebnissen, Publikationsbias, p-Hacking, usw. Im Durchschnitt sind viele publizierte Studien – vor allem Studien mit geringer Power – einfach nicht reliabel. Einem kleinen Forschungsteam wird es in der Regel kaum möglich sein, diese Herausforderungen im Alleingang zu bewältigen – einfach, weil die notwendigen Ressourcen fehlen. Was aber sehr wohl möglich ist, ist, sich mit anderen zusammenzuschließen, die verfügbaren Ressourcen in einen Topf zu werfen und entsprechend größere, differenziertere und informativere Projekte umzusetzen. Ein Fokus auf die wirklich wichtigen Fragestellungen bei gleichzeitiger Erhöhung der Qualität und Reliabilität von Forschungsergebnissen – das wäre meine Idealvorstellung bezüglich der Entwicklung der sozialwissenschaftlichen Forschung.
Spielen Vorbilder eine Rolle? Und wenn ja, wer könnte das sein?
FH: Grundsätzlich sind Role Models nicht verkehrt und auch in der Open-Science-Bewegung gibt es viele Aushängeschilder, die eine Vorbildfunktion erfüllen. Als erstes kommt mir in dieser Hinsicht Brian Nosek in den Sinn, weil er unter anderem eine prominente Rolle im Center for Open Science einnimmt und von Anfang an Wegbereiter war, um der Thematik auf größerer Ebene Gehör zu verschaffen. Es braucht etablierte Wissenschaftler:innen wie Nosek, die aufzeigen und vorleben, dass es auch anders geht. Aber es kann trotzdem schwierig sein, solchen Vorbildern nachzueifern, wenn man selbst nicht in der Position ist, um sich den Standards im direkten Umfeld entgegenzusetzen.
Was würden Sie denn aus Ihrer Erfahrung tatsächlich jungen Forschenden raten?
FH: Ich kann Jungforscher:innen nur empfehlen, in große Crowd-Science-Projekte einzusteigen – es ist jedenfalls eine spannende, wertvolle und lehrreiche Erfahrung. Es gibt weltweit sehr, sehr viele Projekte, die auch immer wieder mit offenen Calls über diverse Verteiler aktiv nach Mitwirkenden suchen. Projekte dieser Art umzusetzen, funktioniert nur mit einer entsprechenden Community. Als Teil dieser Community ist man ein kleines Rädchen in einer Bewegung, die das ganze System Wissenschaft zum Besseren ändern kann.
Vielen Dank!
Das Interview wurde am 3. November 2022 geführt von Dr. Doreen Siegfried.
Über Felix Holzmeister
Felix Holzmeister, PhD ist Assistenzprofessor für Behavioral and Experimental Economics and Finance am Institut für Wirtschaftstheorie, -politik und -geschichte der Universität Innsbruck und Leiter des Laborbetriebs am Innsbruck EconLab. Seine Forschungsinteressen umfassen verschiedene Aspekte der verhaltenswissenschaftlichen und experimentellen Ökonomie und Finanzwirtschaft. Einerseits stehen Urteilsvermögen und Entscheidungsfindung sowie methodische Fragen im Kontext von Entscheidungen unter Risiko sowie Märkte für Vertrauensgüter im Fokus. Zum anderen konzentriert sich Felix Holzmeister auf die Replizierbarkeit wissenschaftlicher Ergebnisse in den Verhaltenswissenschaften sowie auf Erkenntnistheorie, Metawissenschaft und Open Science.
Kontakt: https://www.holzmeister.biz/
ORCID-ID: https://orcid.org/0000-0001-9606-0427
Twitter: https://twitter.com/flxhlzmstr
ResearchGate: https://www.researchgate.net/profile/Felix-Holzmeister