Big-Team-Science ermöglicht strukturierte, gemeinsame Forschung

David Albrecht über seine Open-Science-Erfahrungen

Die drei wesentlichen Learnings:

  • Big-Team-Science zeichnet sich durch eine koordinierte Zusammenarbeit vieler Forschungsteams aus, die jeweils definierte Beiträge entlang des Forschungsprozesses leisten. Die Organisation erfolgt über klare Rollenverteilungen, abgestimmte Zeitpläne und transparente Auswahlkriterien.
  • Formate wie Many-Analysts- oder Many-Designs-Studien zeigen auf, wie unterschiedliche methodische Entscheidungen zu abweichenden Forschungsergebnissen führen können. Big-Team-Science schafft somit die Grundlage, Heterogenität in der Forschung sichtbar und auswertbar zu machen.
  • Für Early Career Researcher bieten Big-Team-Science-Projekte eine Gelegenheit, sich methodisch einzubringen, von standardisierten Abläufen zu lernen und Teil größerer wissenschaftlicher Netzwerke zu werden. Auch ohne leitende Projektverantwortung ist eine fachlich sichtbare Beteiligung möglich – mit potenziellem Mehrwert für Publikationen und berufliche Kontakte.

Wie sind Sie erstmals mit Open Science in Berührung gekommen?

DA: Das Thema Open Science war im Grunde bereits mit Beginn meiner Promotion präsent. Ich habe 2019 an der Universität Maastricht mit meinem PhD in Economics begonnen. Für alle Promovierenden in den Wirtschaftswissenschaften waren bestimmte Kurse verpflichtend, die zwar noch nicht explizit unter dem Begriff Open Science liefen, aber inhaltlich klar darauf abzielten. Es ging unter anderem um Forschungsdatenmanagement sowie um Praktiken wie Präregistrierung und die transparente Dokumentation von Methoden und Analysen. Diese Inhalte wurden früh thematisiert und haben mich in meiner weiteren Arbeit begleitet, sowohl in internen Seminaren und Präsentationen als auch in Gesprächen mit meinen Betreuern. Die Frage, inwiefern Prinzipien von Open Science in die eigene Forschung einfließen können, war damit von Anfang an präsent.

Ein weiterer, für mich persönlich prägender Faktor war die Betreuungssituation während meiner Promotion. Ich hatte drei Betreuer, die aus unterschiedlichen Generationen und Subfeldern kamen. Entsprechend vielfältig waren ihre Erfahrungen und Perspektiven im Hinblick auf Open Science. Für niemanden war das Thema neu, aber die jeweilige Auslegung und Schwerpunktsetzung unterschieden sich durchaus. Diese Unterschiede haben zu konstruktiven Diskussionen geführt, etwa darüber, welche Standards oder Best Practices ich in meiner Forschung anwenden sollte. Rückblickend war es sehr hilfreich, auf diese Weise frühzeitig mit verschiedenen Sichtweisen konfrontiert zu werden, mir aktiv eine eigene Meinung zur Thematik zu bilden und Open-Science-Prinzipien von Beginn an in meine Arbeit zu integrieren. Natürlich ist das ein Lernprozess. Was ich heute praktiziere, ist sicher noch nicht perfekt – vieles entwickelt sich weiter. Das gilt gleichwohl für meine eigenen Fähigkeiten und meinen Wissensstand, wie auch für die neuesten Best Practices. Die bewusste Auseinandersetzung mit Open Science ist für mich inzwischen klar ein fester Bestandteil meiner wissenschaftlichen Praxis.

Welche Open-Science-Praktiken setzen Sie aktuell ein – und welche davon erweisen sich als besonders hilfreich für Ihre Arbeit?

DA: Ich würde das gerne in zwei Perspektiven unterteilen: zum einen ein Rückblick auf Projekte aus meiner Promotionszeit, also vor meiner Tätigkeit im Lab², und zum anderen meine derzeitige Forschung. Rückblickend habe ich während meines PhDs an mehreren Projekten gearbeitet, in denen ich bereits Open-Science-Prinzipien angewendet habe, wenn auch nicht durchgängig in vollem Umfang. Eines dieser Projekte war nicht präregistriert, aber der zugrunde liegende Code sowie die Daten wurden offen zur Verfügung gestellt. Das war relativ unkompliziert, da ich aus dem Bereich der experimentellen Wirtschaftsforschung komme, in dem die Veröffentlichung anonymisierter selbst erhobener Datensätze in der Regel gut umsetzbar ist.

Ein anderes Projekt – mein sogenanntes Job-Market-Paper – habe ich zusätzlich über das Open Science Framework präregistriert. Dort habe ich einen vollständigen Präanalyseplan erstellt, also eine detaillierte Vorabdokumentation der geplanten Analysen. Auch in diesem Fall habe ich Code und Daten öffentlich bereitgestellt.

Inwiefern haben Ihnen der Präanalyseplan und die Präregistrierung bei Ihrer Arbeit geholfen? Was würden Sie als zentrale Vorteile benennen?

DA: Der zentrale Aspekt war für mich weniger die öffentliche Zugänglichkeit im Sinne von Open, sondern vielmehr die strukturierende Wirkung der damit verbundenen Deadline. Durch die Präregistrierung war ich gezwungen, die geplanten Analysekonzepte vollständig zu durchdenken, bevor die Datenerhebung begann. Ich habe mit simulierten Daten gearbeitet, um vorab zu prüfen, ob sich meine Vorhaben methodisch wie geplant umsetzen lassen.

Das hat einen produktiven Druck erzeugt, das Forschungsdesign frühzeitig klar zu strukturieren – also weiter zu denken, als es ohne diese formale Anforderung vermutlich der Fall gewesen wäre. Andernfalls besteht die Tendenz, explorativ in eine Analyse einzusteigen, ohne ein klares Konzept im Vorfeld entwickelt zu haben. Für mein Projekt war das sehr hilfreich. Es hat nicht nur die spätere Analyse vorbereitet, sondern auch die Gestaltung des Experiments beeinflusst – und zwar zu einem Zeitpunkt, an dem noch Anpassungen möglich waren. Bestimmte Schwachpunkte und Verbesserungsmöglichkeiten wurden dadurch frühzeitig identifiziert und systematisch berücksichtigt.

Hat Ihnen die Präregistrierung im Analyseprozess auch eine gewisse Sicherheit geben können– etwa im Sinne eines strukturierten Ablaufs?

DA: Ja, er hat auf jeden Fall Struktur geschaffen. Sicherheit im engeren Sinne würde ich es nicht nennen. Ich habe aber auch festgestellt, dass der Plan nicht in allen Punkten ausreichend war. An einzelnen Stellen bin ich später bewusst abgewichen – mit Begründung und transparenter Darstellung im Paper. Für mich ist das ein angemessener Umgang mit Präregistrierung: als Rahmen und Benchmark, nicht als starre Vorgabe.

Ich würde gern auf das Thema Big Team Science zu sprechen kommen. Könnten Sie für unsere Leser:innen kurz skizzieren, worum es dabei geht? Welche Formen gibt es und wie unterscheiden sie sich?

DA: Gern. Der zentrale Unterschied zwischen klassischen Projekten und Big Team Science – auch als Crowd Science bezeichnet – liegt in der Beteiligungsstruktur. Viele Forschende arbeiten gemeinsam an einem Projekt, meist mit klar definierten Rollen entlang des Forschungsprozesses. Wesentlich ist der Zeitpunkt, an dem sich die Beteiligten einbringen. Daraus ergeben sich verschiedene Formate. Bei einer Many-Designs-Studie liegt eine gemeinsame Fragestellung vor, aber noch kein festes Studiendesign. Die beteiligten Teams entwickeln jeweils eigenständige methodische Ansätze, etwa durch Experimente, Umfragen oder beobachtende Verfahren. Über offene Ausschreibungen werden interessierte Teams rekrutiert, ihre diese Designs gesammelt und später systematisch analysiert.

In Many-Analysts-Studien wiederum sind Fragestellung und Datensatz bereits gegeben. Hier wird untersucht, wie unterschiedlich Analysewege ausfallen können – mit dem Ziel, die Robustheit oder Varianz von Ergebnissen sichtbar zu machen. Die dritte Form betrifft die Datenerhebung selbst, etwa bei Many-Labs- oder Many-Surveys-Studien. Dabei wird ein identisches Experiment oder ein standardisierter Fragebogen gleichzeitig an vielen Orten durchgeführt, um externe Validität durch Stichproben aus verschiedenen Populationen zu erhöhen.

In all diesen Fällen stellt sich die Frage, wie mit der Vielfalt der eingereichten Beiträge – auch im Hinblick auf ihre Qualität – umgegangen wird. Am Beispiel unseres aktuellen Many-Analysts-Projekts bei Lab² lässt sich das gut veranschaulichen: Noch vor dem offenen Call haben wir klare Zugangskriterien definiert. Teilnehmende mussten etwa einen abgeschlossenen PhD oder einschlägige Publikationserfahrung nachweisen. So wollten wir eine gewisse Qualität der Beiträge sicherstellen. Alle 160 Teams, die diese Kriterien erfüllt und einen relevanten Analysevorschlag eingereicht haben, werden grundsätzlich berücksichtigt. Ergänzend haben wir ein internes Peer-Review eingerichtet: Jedes Team bewertet zehn Analysen anderer Teams. So entsteht ein internes Qualitätsranking, das in die spätere Auswertung einfließt. Etwa indem wir analysieren, wie sich die Ergebnisse verändern, wenn nur Beiträge aus dem oberen Bewertungsbereich berücksichtigt werden. Damit kombinieren wir formale Kriterien mit einer kollektiven Qualitätsprüfung durch die beteiligte Community.

Wie funktioniert die Evaluierung in anderen Formaten, zum Beispiel bei Many-Designs-Studien?

DA: Grundsätzlich ähnlich wie bei Many-Analysts-Studien. Auch bei Many-Designs-Studien sammeln wir Beiträge von verschiedenen Research Teams – in diesem Fall alternative Forschungsdesigns zu einer gemeinsamen Fragestellung. Diese Vorschläge lassen sich ebenfalls im Rahmen eines Peer-Review-Verfahrens bewerten, etwa durch die beteiligten Forschenden selbst. Dabei gibt es zwei Optionen: Entweder man berücksichtigt nur die Forschungsdesigns, die bestimmte Qualitätskriterien erfüllen oder man nimmt alle eingereichten Designs auf und analysiert im Nachhinein, ob sich die Ergebnisse zwischen höher und niedriger bewerteten Vorschlägen unterscheiden. Wichtig ist aus meiner Sicht, dass diese Vorgehensweise vorab klar definiert wird – idealerweise in einem öffentlich einsehbaren Analyseplan. So lässt sich vermeiden, dass im Nachhinein selektiv entschieden wird, welche Beiträge aufgenommen werden und welche nicht, um bewusst oder unterbewusst ein erwünschtes Ergebnis zu erhalten. Transparenz in diesen Prozessen ist zentral.

Verstehe ich es richtig, dass bei einer Many-Analysts-Studie bereits Ergebnisse vorliegen, die dann im Rahmen eines Review-Verfahrens begutachtet werden?

DA: Nicht ganz. Ich würde den Begriff „Ergebnisse“ hier etwas einschränken. Was im Reviewprozess bewertet wird, ist nicht das Resultat im Sinne von „Hypothese bestätigt oder verworfen“, sondern die Angemessenheit der vorgeschlagenen Analyse. Im konkreten Fall geht es also darum, ob der methodische Ansatz eines Teams geeignet ist, die zugrunde liegende Hypothese fundiert zu testen.

Inwieweit besteht die Wahrscheinlichkeit, dass unterschiedliche Analyseverfahren zu abweichenden Ergebnissen führen? Anders gefragt: Wie nähert man sich in diesem Kontext der Frage nach wissenschaftlicher Wahrheit?

DA: Diese Wahrscheinlichkeit besteht – und genau das ist eines der zentralen Erkenntnisinteressen von Many-Analysts-Studien. Die wenigen bestehenden Studien der vergangenen Jahre haben gezeigt, dass unterschiedliche Analyseentscheidungen zu teils deutlich abweichenden Ergebnissen führen können. Auch in unserem aktuellen Projekt bei Lab² greifen wir genau diese Frage auf. Inhaltlich untersuchen wir, ob “Töchter zu haben“ Effekte auf bestimmte Einstellungen und Verhaltensweisen hat – also eine sozialwissenschaftliche Fragestellung. Hier wollen wir mehrere Hypothesen testen. Gleichzeitig verfolgen wir eine metawissenschaftliche Perspektive: Wir wollen analysieren, wie stark die Ergebnisse auf inhaltlicher Ebene zwischen den Teams variieren auf Basis der Herangehensweise, wie Daten analysiert werden. Da der Datensatz, die Fragestellung und die Hypothesen für all Teams identisch sind, können wir den Einfluss unterschiedlicher methodische Entscheidungen in der Datenanalyse auf die Variabilität der Ergebnisse isolieren. Gerade diese Variabilität zu messen ist für uns hoch relevant, denn sie zeigt, welchen Einfluss Freiheitsgrade (sogenannte researcher degrees of freedom), in unserem Fall bei der Datenanalyse, auf wissenschaftliche Befunde haben kann.

Many-Labs- und Many-Surveys-Studien sind also kein nächster Schritt nach einer Many-Analysts-Studie, sondern eigenständige Formate – etwa um ein Design international zu testen, richtig?

DA: In gewisser Weise: ja und nein. Die drei Formate – Many Designs, Many Analysts und Many Labs – sind bislang überwiegend eigenständige Spielarten von Big Team Science. Sie lassen sich thematisch kombinieren, folgen aber jeweils einer eigenen Logik im Forschungsprozess. Wir sehen derzeit, dass diese Formate jeweils eigenständig durchgeführt werden und dass jedes dieser Formen für sich genommen einen wichtigen Beitrag leisten kann, insbesondere mit Blick auf Heterogenität. Many-Labs-Studien zeigen zum Beispiel, wie stark sich Ergebnisse zwischen unterschiedlichen Populationen unterscheiden können – etwa zwischen Teilnehmenden aus Deutschland, Österreich oder anderen Ländern. Many-Analysts-Studien machen sichtbar, wie Analyseentscheidungen einzelner Teams die Ergebnisse beeinflussen. Und Many-Designs-Studien zeigen, dass schon die Wahl des Studiendesigns, also die Art, wie Daten zur Beantwortung einer Forschungsfrage erhoben werden, zu unterschiedlichen Resultaten führen kann.

Bisher wurden diese Formate in der Regel getrennt voneinander durchgeführt. Das muss aber nicht so bleiben. Wir bei Lab2 finden die Idee sehr spannend, künftig auch Studien zu entwickeln, die mehrere Ebenen kombinieren – also etwa Design-, Analyse- und Durchführungsebene gemeinsam variieren. Man könnte das als eine Art „Many Everything“-Studie verstehen – ein umfassendes Big-Team-Science-Projekt, das in allen Phasen des Research Workflows auf kollaborative Beteiligung setzt.

Wie läuft das bei solchen Big-Team-Science-Projekten mit der Publikation? Gibt es ein zentrales Schreibteam, und entsteht dabei eine oder mehrere Veröffentlichungen?

DA: Das ist je nach Projekt unterschiedlich. In unserem aktuellen Fall ist eine zentrale Publikation geplant. Das Schreiben liegt bei uns, dem Projektkoordinationsteam. Wir haben bereits vor der Einbindung der teilnehmenden Teams eine Metaanalyse konzipiert und präregistriert. Nach Abschluss der Teamphase setzen wir diesen Analyseplan um und erstellen auf dieser Basis das Paper.

Es gibt aber auch andere Modelle. Felix Holzmeister hat in einem früheren Projekt – dem Fincap-Projekt (Finance Crowd Analysis Project), das später unter dem Titel Non-Standard Errors veröffentlicht wurde – mit seinem Team einen anderen Weg gewählt. Dort haben die teilnehmenden Analyst:innen jeweils ein eigenes Kurzpapier von drei bis vier Seiten verfasst. Am Ende standen also rund 160 Einzelbeiträge, ergänzt durch ein zentrales Metapaper, das die Ergebnisse systematisch zusammenfasst und einordnet. Auch dieses Format ist denkbar. Die Publikationsstrategie hängt stark vom Ziel des Projekts, vom Umfang und von der Struktur der Beiträge ab.

Sie sind bei Lab² ja eng eingebunden – was genau ist Ihre Rolle im aktuellen Projekt? Koordinieren Sie das Ganze?

DA: Ja, im aktuellen Many-Analysts-Projekt bin ich für die Koordination der beteiligten Teams zuständig. Ich bin der erste Ansprechpartner für alle 160 Forschungsteams – sowohl organisatorisch als auch inhaltlich. Das heißt: Ich informiere über den Projektstand, erinnere an Fristen und formuliere klar, was wir in den jeweiligen Phasen erwarten. Gleichzeitig unterstütze ich die Teams dabei, ihre Beiträge termingerecht und in der geforderten Form einzureichen. Mein Ziel ist es, den gesamten Ablauf so zu gestalten, dass eine möglichst reibungslose Zusammenarbeit möglich ist.

Das klingt ja fast wie die Leitung eines mittelständischen Unternehmens mit 160 Mitarbeitenden. Angenommen, jemand möchte erstmals ein derartiges Projekt initiieren – gibt es dafür etablierte Strukturen, Vorlagen oder Tools, die beim Management solcher Vorhaben unterstützen? Oder ist das bislang eher Pionierarbeit?

DA: Genau das ist eines unserer Ziele bei Lab²: solche Projekte nicht nur umzusetzen, sondern auch systematisch aufzuarbeiten. Aktuell haben wir noch keine fertigen Vorlagen oder Handreichungen, aber wir arbeiten daran. Unser Ansatz ist, nach Abschluss des Projekts die gesammelten Erfahrungen und Strukturen in einer Art Best-Practice-Leitfaden aufzubereiten. Derzeit würden wir sagen: Wer Interesse hat, kann uns direkt kontaktieren. Gern bieten wir auch Austauschformate oder kurze Forschungsaufenthalte an, um unsere bisherigen Erfahrungen weiterzugeben – aktuell eher informell, perspektivisch aber auch in strukturierter Form.

Welche drei Dinge sind aus Koordinatoren-Perspektive besonders wichtig, wenn man ein solches Big-Team-Science-Projekt aufsetzen möchte?

David Albrecht: Aus meiner Sicht ist es entscheidend, jemanden im Team zu haben, der bereits Erfahrung mit solchen Projekten gesammelt hat. Diese Person muss nicht dauerhaft eingebunden sein, aber allein der Zugang zu praktischen Erfahrungswerten ist enorm wertvoll und wichtig. Darüber hinaus würde ich empfehlen, frühzeitig mit Personen zu sprechen, die ähnliche Projekte durchgeführt haben – auch wenn sie nicht direkt beteiligt sind. Schreibt diese Personen einfach an, redet mit ihnen auf Konferenzen oder ähnliches. Ich habe im Vorfeld mit Forschenden gesprochen, etwa von der Universität Innsbruck, die bereits Crowd-Science-Projekte umgesetzt hatten. Schon wenige Gespräche haben mir wichtige Impulse gegeben. Sie haben beispielsweise beschrieben, wie sie ihr Projektmanagement strukturiert, technische Tools entwickelt oder Prozesse automatisiert haben – alles mit dem Ziel, den organisatorischen Aufwand handhabbar zu halten. Diese Einblicke waren für mich zentral, um meine Rolle als Koordinator gut ausfüllen zu können.

Wie ist die Resonanz auf Big-Team-Science-Projekte? Gibt es Formate, die stärker nachgefragt sind als andere?

DA: Meine bisherigen Erfahrungen sind sehr positiv – insbesondere bei der aktuellen Many-Analysts-Studie. Vor dem offiziellen Call habe ich mit vielen Kolleg:innen gesprochen, um die Idee vorzustellen. Vor allem außerhalb der Community, die sich regelmäßig mit Big Team Science beschäftigt, war die Skepsis groß. Die häufigste Rückfrage lautete: Was bietet ihr den teilnehmenden Teams? Warum sollten sie sich engagieren, wenn sie am Ende nur als eine:r von hundert Koautor:innen aufgeführt werden? Diese Zweifel haben auch bei mir Spuren hinterlassen, und ich war etwas nervös, wie die Resonanz tatsächlich ausfallen würde.

Wir hatten intern festgelegt: Für das Projekt brauchen wir mindestens 80 Teams, sonst würden wir es nicht starten – allein schon aus statistischen Gründen. Gleichzeitig wollten wir nicht mehr als 160 Teams zulassen, um die organisatorische Machbarkeit zu gewährleisten. Am Ende haben wir etwa 200 Bewerbungen erhalten – von Teams, die alle unsere Zugangskriterien erfüllt haben, etwa in Bezug auf Qualifikation und methodische Erfahrung. Wir mussten also sogar Absagen erteilen. Das zeigt, dass das Interesse an solchen Formaten durchaus vorhanden ist – auch über die engere Crowd Science-Community hinaus.

Das heißt, Sie mussten die Vorteile eines solchen Projekts gar nicht aktiv „verkaufen“ – die Resonanz war sofort da. Können Sie dennoch einschätzen, was die Motivation der teilnehmenden Teams ist? Gerade mit Blick auf die Skepsis, am Ende lediglich einer von vielen Koautor:innen zu sein.

DA: Ich kann nur vermuten, was die Teams im Einzelnen motiviert hat. Direkte Gespräche dazu habe ich bislang nicht geführt, auch weil das Forschungsprojekt momentan ja noch läuft und wir die Teams in ihrer Arbeit nicht unnötig beeinflussen möchten. Aber wenn man mich fragen würde, was ein sinnvoller Einstieg in Open Science sein kann, insbesondere für Promovierende oder Junior Researcher, würde ich genau solche Projekte empfehlen. Die Teilnahme ist inhaltlich gut strukturiert, die Anforderungen sind klar definiert, und der Arbeitsaufwand ist überschaubar. Über den gesamten Projektzeitraum gesehen sprechen wir von vielleicht zwei Wochen intensiver Arbeit pro Team. Für viele ist das vermutlich ein attraktiver Weg, sich in einem größeren wissenschaftlichen Rahmen einzubringen, ohne gleich ein eigenes Großprojekt stemmen zu müssen. Und selbst wenn man den Wert der Publikation zurückhaltend bewertet: Der methodische Lerngewinn, den man aus der Zusammenarbeit zieht, dürfte für viele den entscheidenden Anreiz darstellen.

Spielt auch die fachliche Vernetzung eine Rolle? Gibt es im Rahmen solcher Projekte Gelegenheiten, Kolleg:innen aus der Community, sozusagen die 159 Koautor:innen, kennenzulernen?

DA: Ich denke, dieser Aspekt ist durchaus relevant – auch wenn er nicht von Beginn an greift. Aktuell wissen die Teams noch nichts voneinander, und das ist bewusst so organisiert: Wir möchten vermeiden, dass sich die Gruppen untereinander austauschen und dadurch ungewollt Ergebnisse beeinflussen. Aber am Ende des Projekts, wenn das Manuskript steht und alle Beteiligten als Koautor:innen genannt sind, entsteht natürlich eine Übersicht, wer mitgewirkt hat. Spätestens dann kann man auf Kolleg:innen aufmerksam werden, die man vorher nicht kannte. Für mich persönlich bedeutet das: Wenn ich auf einer Konferenz jemanden treffe, der ebenfalls Teil des Projekts war, habe ich sofort einen Anknüpfungspunkt. Solche Begegnungen können den fachlichen Austausch fördern und neue Kontakte ermöglichen – gerade über nationale Grenzen hinweg.

Gerade bei so großen Projekten ist die Chance ja nicht gering, dass man einige der Mitwirkenden später auf Tagungen oder in anderen Kontexten trifft.

DA: Genau. Und dieser Vernetzungsaspekt gilt nicht nur für Nachwuchsforschende. Ich war selbst positiv überrascht, wie viele Senior Researchers sich an unserem Projekt beteiligt haben. Das bedeutet: Am Ende steht man nicht nur mit anderen Promovierenden oder Postdocs in Verbindung, sondern teilt eine Publikation mit renommierten Namen der wirtschaftswissenschaftlichen Community. Das kann auf Konferenzen eine gute Gesprächsgrundlage sein – vielleicht nicht als direkter Türöffner, aber definitiv als Anknüpfungspunkt. Und das ist ein nicht zu unterschätzender Mehrwert solcher Projekte.

Wie schätzen Sie die Bedeutung von Big Team Science bzw. Crowd Science insgesamt ein? Handelt es sich eher um eine Nische oder wird es ein wachsender Teil wissenschaftlicher Praxis?

DA: Aktuell sehe ich einen klaren Wachstumstrend. Crowd Science wird sichtbarer und gewinnt an Bedeutung – auch wenn es sicher kein Format ist, das klassische Forschungsansätze grundsätzlich ersetzt. Ich wurde in einem früheren Bewerbungsgespräch einmal gefragt, ob Crowd Science künftig alles dominieren wird. Meine Einschätzung ist: Nein. Es ist nicht das universelle Werkzeug für jede Fragestellung. Vielmehr eignet es sich besonders für Forschungsfragen, die bereits vielfach untersucht wurden, bei denen aber uneinheitliche Ergebnisse vorliegen. Dort kann ein Crowd-Science-Projekt helfen, Heterogenität sichtbar zu machen und systematisch zu erklären – etwa durch unterschiedliche Analyse- oder Designentscheidungen.

Spannend wird in den kommenden Jahren sicherlich auch die Frage, wie sich der Einsatz von Künstlicher Intelligenz auf diesen Bereich auswirkt. Es stellt sich zunehmend die Frage: Könnte KI einzelne Rollen in solchen Projekten übernehmen – etwa bei der Koordination, oder sogar als „virtuelle Analyst:innen“, die verschiedene methodische Perspektiven simulieren? Das könnte die Idee von Crowd Science noch einmal grundlegend verändern.

Oder auch bei der Evaluierung?

DA: Sowohl die Generierung unterschiedlicher Ideen, die wir jetzt crowdsourcen, als auch deren Bewertung – also der gesamte Prozess wird sich durch die wachsenden Möglichkeiten Künstlicher Intelligenz vermutlich deutlich verändern. In welche Richtung genau, kann ich im Moment noch schwer abschätzen. Aber es ist klar, dass hier gerade viel in Bewegung ist – sowohl im Wissenschaftsbetrieb insgesamt als auch im Bereich Crowd Science.

Wenn man Crowd Science bzw. Big Team Science als Teil von Open Science versteht – wie sehen Sie generell das Zusammenspiel von Künstlicher Intelligenz und Open Science? Wo liegen mögliche Schnittstellen?

DA: Zwei Aspekte würde ich besonders hervorheben. Erstens: Die heute bereits verfügbaren KI-Systeme können Open Science direkt unterstützen – insbesondere in Bezug auf Reproduzierbarkeit. Ich war vorgestern bei einem Online-Symposium der Meta Science Conference in London. Dort wurde diskutiert, wie KI genutzt werden kann, um systematisch Fehler in publizierten Forschungsarbeiten zu identifizieren. Kann KI sowas wie computational reproducibility checken oder andere logische Checks machen? Ich denke, solche Verfahren können einen erheblichen Beitrag leisten, die Qualität wissenschaftlicher Ergebnisse zu sichern. In diesem Sinne sehe ich KI klar als Enabler – insbesondere im Kontext von Reproduzierbarkeit und Transparenz, also zentralen Zielen von Open Science.

Meinen Sie Reproduzierbarkeit im Sinne von: Eine KI prüft automatisch, ob veröffentlichte Daten und Code zum gleichen Ergebnis führen?

DA: Genau, das ist der Gedanke. Heute sehen wir noch aufwendige Reproduktions- bzw. Replikationsstudien angewiesen  – etwa vom Institute for Replication um Abel Brodeur – die viel personelle Ressourcen brauchen. KI könnte solche Prüfungen künftig deutlich effizienter machen. Und wenn das gelingt, wird es auch realistischer, Reproduzierbarkeit systematisch in Peer-Review-Prozesse zu integrieren.

Ich verstehe.

DA: Wenn ich heute als Reviewer auch noch die Reproduzierbarkeit prüfen soll, überlege ich mir gut, ob ich den zusätzlichen Aufwand betreibe. Wenn das mithilfe von KI künftig einfacher wird, könnte Reproduzierbarkeit deutlich häufiger geprüft werden. Das würde helfen, Fehler früher zu erkennen – und womöglich auch verhindern, dass nicht reproduzierbare Ergebnisse überhaupt veröffentlicht werden.

Das war der eine Punkt. Der zweite ist für mich mindestens genauso wichtig: Open Science wird noch relevanter, wenn KI stärker in der Forschung eingesetzt wird. Heute sprechen wir vielleicht darüber, mit ChatGPT einzelne Abschnitte in Forschungspapieren zu überarbeiten. Aber mit zunehmender Leistungsfähigkeit von KI geht es perspektivisch darum, dass ganze Forschungsprozesse von der Datenerhebung bis zur Analyse KI-basiert ablaufen könnten.

Dann stellt sich umso mehr die Frage: Wie reliabel sind solche Ergebnisse? Und genau da braucht es klare Open-Science-Prinzipien – damit auch KI-generierte Forschung transparent, prüfbar und letztlich vertrauenswürdig bleibt.

Das heißt, ich veröffentliche künftig nicht nur Daten und Code, sondern auch meine Prompts?

DA: Ja beispielsweise, das wäre ein wichtiger Schritt zur Transparenz. Ein weiterer Punkt ist aber auch: Je stärker Forschungsprojekte nicht mehr primär human based, sondern zunehmend AI based sind, desto wichtiger wird die Frage nach der Reproduzierbarkeit der Ergebnisse. In den letzten Monaten wurde häufig über sogenannte „Halluzinationen“ von KI gesprochen, also Inhalte, die generiert werden, ohne dass sie auf überprüfbaren Fakten basieren. In wissenschaftlichen Arbeiten darf so etwas natürlich nicht passieren. Aber je größer der KI-Anteil an einer Studie ist, desto eher besteht das Risiko, dass solche Fehler unbemerkt bleiben. Deshalb wird es aus meiner Sicht umso wichtiger, Prinzipien wie Reproduzierbarkeit und Transparenz konsequent anzuwenden – gerade in einer Forschungslandschaft, in der KI eine zunehmend aktive Rolle spielt.

Vielen Dank!

*Das Gespräch wurde geführt am 19. Juni 2025 von Dr. Doreen Siegfried.

Über David Albrecht, PhD:

David Albrecht ist Verhaltensökonom und Postdoktorand am Wissenschaftszentrum Berlin für Sozialforschung (WZB). In seiner Forschung beschäftigt er sich mit datengestützten Ansätzen zur Analyse ökonomischer Fragestellungen und Entscheidungsprozesse. Dabei untersucht er unter anderem ökonomische Präferenzen und Gruppenverhalten. Albrecht koordiniert am WZB die Forschungs- und Laboraktivitäten des Projekts Lab2, das von Anna Dreber und Levent Neyse geleitet wird. Ziel des Projekts ist der Aufbau eines zentralen Hubs für Replizierbarkeit sowie für Meta- und Crowd-Science in den Wirtschafts- und Sozialwissenschaften.

Kontakt: https://da-lbrecht.github.io/

LinkedIn: https://www.linkedin.com/in/david-albrecht-2b4479120/



Zurück zum Open-Science-Magazin