LLMs können Open Science fördern, wenn Modell, Version und Parameter klar dokumentiert werden

Ulrich Matter über seine Open-Science Erfahrungen

Foto von Prof. Dr. Ulrich Matter

Die drei wesentlichen Learnings:

  • Replizierbarkeit von Wirtschaftswissenschaft kann durch Large Language Models gewinnen, da klar dokumentierte Modelle und Parameter konsistent wiederverwendet werden können – im Unterschied zum alleinigen Human Labeling.
  • Transparenz bei KI-gestützter Wirtschaftsforschung erfordert Mindeststandards: Forschende müssen Modell, Version, Prompt und Parametereinstellungen offenlegen, damit Ergebnisse nachvollziehbar bleiben.
  • KI hat das Potenzial, Open Science zukünftig praktisch zu unterstützen, etwa durch automatisierte Replikationspakete oder verständlichere README-Dateien, die den Zugang zu Forschungsdaten erleichtern.

Wir wollen über das Thema Künstliche Intelligenz und Open Science sprechen. Sie befassen sich mit dem Einsatz von Large Language Models zur Codierung und zum Labeling von Textdaten in den angewandten Wirtschaftswissenschaften – und mit den Folgen für Transparenz und Replizierbarkeit in der Forschung. Bevor wir ins Detail gehen: Welche Rolle spielt die Textdatenanalyse generell in der empirischen Wirtschaftsforschung? Welche Anwendungsfelder gibt es?

UM: Die Bedeutung hat in den vergangenen zehn Jahren deutlich zugenommen, weil durch die Digitalisierung immer mehr Textmaterial verfügbar ist. Gleichzeitig stehen mittlerweile auch Forschenden, die keine Spezialist:innen auf diesem Gebiet sind, leicht zugängliche Tools zur Verfügung, die verlässliche Ergebnisse liefern und eine eigene Nutzung ermöglichen. Die Anwendungsbereiche in den Wirtschaftswissenschaften sind vielfältig. Häufig geht es darum, Präferenzen von Konsument:innen zu erfassen, Produkteigenschaften zu untersuchen oder Wertehaltungen in der Bevölkerung zu analysieren. In meinem Forschungsbereich spielt etwa die Ableitung politischer Einstellungen aus Texten eine zentrale Rolle. Das kann die Analyse von Kommentaren in Onlineforen umfassen, wenn es um die Haltung von Wähler:innen geht. Ebenso relevant ist die Auswertung von Medieninhalten, also die Frage, wie Medien bestimmte Themen darstellen – sei es in einzelnen Ressorts oder übergreifend. Daraus lässt sich beispielsweise ableiten, wo sich ein Medium auf einer Links-Rechts-Skala verorten lässt. Im Kern geht es darum, aus großen Mengen an Text Informationen zu extrahieren, die eine Variable abbilden – etwa eine Einstellung oder Präferenz –, die ohne Textdaten empirisch nur schwer zu fassen wäre.

Das heißt, Sie konzentrieren sich vor allem auf journalistische Texte und Kommentare zu journalistischen Inhalten?

UM: Genau. Mich interessieren insbesondere zwei Bereiche: Zum einen, wie Medien berichten – etwa auf News-Portalen – und welche Informationen sich daraus gewinnen lassen. Zum anderen, wie Politiker:innen kommunizieren, also welche Themen sie aufgreifen und wie sie diese in Reden oder auf Social-Media-Plattformen darstellen. Daraus lässt sich ableiten, welche Haltung sie zu einzelnen Themen einnehmen oder welche politische Position sie insgesamt vertreten. In anderen Feldern wird ähnlich vorgegangen. In der Finanzwirtschaft etwa analysiert man, wie sich die Stimmung an den Märkten aus Texten herauslesen lässt, noch bevor sie sich in Aktienkursen widerspiegelt. Dafür werden Beiträge in sozialen Medien ausgewertet, etwa von Akteur:innen, die wahrscheinlich direkt in wichtige Börsengeschäfte involviert sind, oder auch Berichte in Wirtschaftsmedien. Ziel ist es in beiden Fällen, aus sprachlichen Mustern Indikatoren für Werte, Präferenzen oder Stimmungen abzuleiten, die sonst schwer messbar wären.

Wenn wir nun auf die Bedeutung von Large Language Models für das Codieren und Labeln von Textdaten schauen: Kann man sagen, dass sich deren Einsatz in den vergangenen zwei Jahren explosionsartig verbreitet hat? Sind LLMs inzwischen das zentrale Werkzeug, oder existieren weiterhin gleichwertige Alternativen?

UM: Viele Arbeiten sind zwar noch nicht final publiziert – das dauert in den Wirtschaftswissenschaften erfahrungsgemäß –, aber bei den aktuellen Working Papers in diesem Feld findet man in fast allen zumindest eine Anwendung von LLMs. Dabei gibt es unterschiedliche Einsatzformen. Häufig werden LLMs komplementär eingesetzt: Man kombiniert klassische Verfahren der Textverarbeitung mit zusätzlichen Analysen auf Basis von LLMs. In manchen Fällen kommen LLMs aber auch dort zum Einsatz, wo traditionelle Machine-Learning-Ansätze zu komplex oder schlicht noch nicht entwickelt sind. Und schließlich ersetzen sie zunehmend manuelle Arbeit: Für das Codieren von Variablen, das früher von Studierenden oder Research Assistants übernommen wurde, werden nun LLMs eingesetzt. Ansonsten stimme ich Ihnen zu: Die Verbreitung hat stark zugenommen. Dafür sehe ich zwei Hauptgründe. Erstens eröffnen sich mit LLMs neue Möglichkeiten, die mit früheren Methoden nicht realisierbar waren. Zweitens sind sie gerade für einfache Codierungsaufgaben sehr leicht zugänglich. Forschende, die zuvor kaum Berührung mit Textanalyse hatten und für solche Aufgaben eher Hilfskräfte eingesetzt hätten, können nun direkt auf diese Technologie zurückgreifen. Für diese einfachen Anwendungen scheint es in der Community bereits akzeptiert, LLMs einzusetzen. Gleichzeitig bleiben aber viele Fragen offen – insbesondere, welche Folgen es hat, wenn sich diese Praxis weiterverbreitet.

Wenn Sie sagen, dass LLMs inzwischen überall eingesetzt werden – sprechen wir dann konkret von ChatGPT oder von speziell angepassten Modellen?

UM: Das Spektrum ist relativ breit. Man sieht: Je stärker das technische Know-how im Autorenteam ausgeprägt ist, desto häufiger greifen Forschende auf Open-Source-Modelle zurück. Diese sind allerdings oft weniger leicht zugänglich als etwa die Modelle von OpenAI. In der Praxis wird deshalb in den meisten Fällen tatsächlich ein OpenAI-Modell genutzt – einfach, weil es niedrigschwellig verfügbar ist. Das gilt insbesondere bei Daten, die nicht sensibel sind und somit ohne größere ethische Bedenken über diese Plattform verarbeitet werden können. Grundsätzlich gibt es zwei Zugänge. Entweder man arbeitet manuell über die ChatGPT-Anwendung, oder man nutzt die Programmierschnittstelle, über die sich größere Datenmengen automatisiert einspeisen und Ergebnisse systematisch erfassen lassen. Beides findet sich in der Forschungspraxis. Teilweise bleibt in den Veröffentlichungen aber unklar, welche Variante tatsächlich verwendet wurde. Das ist für die Replizierbarkeit durchaus relevant, da es methodische Unterschiede macht.

Welche drei Anwendungsfelder würden Sie als besonders relevant für den Einsatz von LLMs bezeichnen?

UM: Meine Einschätzung ist natürlich durch meinen eigenen Forschungsbereich geprägt, da kenne ich die Literatur am besten. Grundsätzlich sind es die Felder, in denen schon zuvor intensiv mit Text gearbeitet wurde. Ein zentrales Beispiel ist der Finanz- und Makrobereich, insbesondere die Analyse von Investitionsentscheidungen und Marktstimmungen. Bisher hat man dort oft mit einfachen Verfahren gearbeitet, etwa indem man die Häufigkeit bestimmter Begriffe gezählt und daraus eine positive oder negative Stimmung abgeleitet hat. Mit LLMs lassen sich diese Analysen nun deutlich verfeinern: Man kann spezifischer erkennen, welche Argumentationsmuster oder Erwartungshaltungen in den Texten vorkommen und welche Bedeutung sie für die Entwicklung von Börsenkursen haben könnten. Ein zweites Feld ist die Medienökonomik. Auf Konferenzen der vergangenen anderthalb bis zwei Jahre habe ich praktisch keine Beiträge mehr gesehen, die nicht in irgendeiner Form auf LLMs zurückgreifen. Und schließlich gibt es viele explorative Anwendungen, die stärker auf Prompting basieren, also darauf, LLMs mit gezielten Eingaben zu steuern, ohne dass im Hintergrund bereits ein umfassendes Textanalyse-Framework etabliert ist. Hier greifen Forschende häufig auf leicht zugängliche Tools wie ChatGPT zurück, um erste Hypothesen oder Pilotanalysen zu entwickeln.

Studien der TU Darmstadt zeigen, dass ein Großteil der Studierenden ChatGPT regelmäßig für das Studium nutzt. Ist der Umgang damit inzwischen Teil der Ausbildung – auch in der Promotion? Und verändert das den wissenschaftlichen Erkenntnisprozess?

UM: Hochschulen integrieren den Umgang mit KI zunehmend in die Lehre. In St. Gallen unterrichte ich etwa einen Kurs „Prompt Engineering for Economists“, in dem Studierende lernen, Eingaben so zu formulieren, dass Modelle brauchbare Ergebnisse liefern. Zudem wird KI bereits auch von den ersten Studierenden als Lernassistenz entdeckt, etwa durch Chatbots, die jederzeit Feedback geben können zu einem Themenbereich, den die Studierenden noch nicht verstehen – allerdings weit seltener und weit weniger elaboriert als es theoretisch möglich wäre. Am wenigsten geklärt ist der Bereich Prüfungen: Manche Formate funktionieren nicht mehr, andere müssen neu gedacht werden. Auffällig ist auch, dass Studierende ChatGPT zwar häufig einsetzen, dies aber oft wenig reflektiert geschieht.

Das heißt, die Prompting-Skills sind noch deutlich ausbaufähig?

UM: Genau. Viele Studierende machen sich kaum Gedanken darüber, wie sie KI-Tools sinnvoll in ihr Lernen integrieren. Zwar gibt es klare Kursinformationen mit Lernzielen, Literatur und Prüfungsanforderungen, doch die Überlegung, wie man diese Ressourcen in Verbindung mit den neuen Technologien nutzt, bleibt oft aus. Unsere Generation musste ohne solche Tools Strategien entwickeln – etwa wie viel Zeit man in der Bibliothek verbringt oder wie man Notizen anlegt. Heute sehen wir, welches Potenzial KI hätte, doch für Studierende, die gerade erst beginnen, ist das Studium selbst schon eine Herausforderung. Sie kennen keinen Referenzpunkt ohne KI. Ob ein Lehrassistenz-Chatbot tatsächlich die Lösung ist, bleibt für mich offen. Entscheidend ist die Frage, wie wir Studierende dazu bringen können, diese Technologie produktiv einzusetzen – und nicht nur oberflächlich.

Inwieweit verändern KI-Tools, die jederzeit verfügbar sind, das Lernen und den Erkenntnisprozess?

UM: Noch ist es zu früh für eine finale Einschätzung, aber ich sehe Risiken. Studierende greifen zunehmend auf KI zurück, anstatt sich durch Pflichtliteratur zu arbeiten. Damit fehlt oft der Überblick, den ein Buch oder eine Vorlesung vermittelt. KI liefert punktuelle Erklärungen, die beim Reproduzieren von Wissen helfen, aber nicht unbedingt beim Anwenden oder Einordnen in einen größeren Zusammenhang. Das spüre ich etwa in Prüfungen: Es werden Details genannt, aber Verbindungen zwischen Konzepten bleiben aus. Wir müssen uns daher überlegen, wie man Studierende stärker zum Vernetzen von Inhalten bringt. In Bern erproben wir ein Modell mit zwei Komponenten: Zum einen klassische Vorlesungen mit Prüfungen ohne KI, um das grundlegende Verständnis sicherzustellen. Zum anderen längere Prüfungsformate, in denen KI-Tools ausdrücklich erlaubt sind – etwa für eine Datenanalyse oder ein kleines Softwareprojekt. Dort reicht es nicht, einzelne Antworten zu reproduzieren, sondern man muss Konzepte verknüpfen und praktisch anwenden. Dieser Ansatz zwingt dazu, beides zu beherrschen: das Verstehen der Grundlagen und die produktive Nutzung von KI im komplexeren Zusammenhang.

Welche Rolle spielen Prompt Engineering und die Wahl des Modells – etwa GPT im Vergleich zu Open-Source-Modellen – für die Ergebnisqualität? Welche Erfahrungen haben Sie gesammelt?

UM: In meinem Fokusbereich, dem Labeling von Texten mit Relevanz für die Wirtschaftswissenschaften, sehen wir bislang kaum Qualitätsunterschiede. Wenn Modelle zur gleichen Zeit entwickelt wurden und eine ähnliche Größe haben, liefern sie vergleichbare Ergebnisse – unabhängig davon, ob sie Open Source sind oder nicht. Selbstverständlich kann dies in einem anderen Kontext, d.h. in einem anderen Forschungsbereich, durchaus anders sein. In einem laufenden Projekt haben wir das praktisch getestet: Zunächst verglichen wir ein OpenAI-Modell mit menschlichem Labeling im kleinen Maßstab. Dann stellten wir das Ergebnis einem aktuellen Open-Source-Modell wie DeepSeek gegenüber. Beide lieferten nahezu identische Qualität. Für die Skalierung entschieden wir uns dennoch für DeepSeek – schlicht weil es rund fünfmal günstiger war. Für viele Forschungsteams ist daher weniger die Ergebnisqualität entscheidend, sondern die ökonomische Frage: Lässt sich ein Projekt mit einem kommerziellen Modell wie OpenAI überhaupt finanzieren, wenn es in großem Umfang eingesetzt wird?

Wenn wir über Transparenz sprechen – welche Vorkehrungen sind nötig, um Verzerrungen und Intransparenz bei der Nutzung von LLMs zu vermeiden?

UM: Entscheidend ist, immer über die standardisierte Entwicklerschnittstelle zu arbeiten – egal ob mit OpenAI oder einem Open-Source-Modell. Diese Schnittstellen sind heute weitgehend vereinheitlicht, und die Anbieter dokumentieren exakt, um welches Modell es sich handelt, inklusive Versionsnummer und am besten auch Veröffentlichungsdatum. Für die Replizierbarkeit ist diese Angabe zentral: Es reicht nicht, nur „GPT-4“ zu nennen, sondern man muss die konkrete Version angeben. Ebenso wichtig ist, die verwendeten Parameter zu dokumentieren. Ohne diese Angaben lässt sich ein Ergebnis nicht nachvollziehen. Dazu gehört beispielsweise der sogenannte Temperaturparameter, der steuert, wie die Wahrscheinlichkeitsverteilung skaliert ist bei diesen Modellen, ob ein Modell eher deterministische oder variablere Ausgaben produziert. Hier geht es darum, vorherzusagen, welches Wort in der Textanalyse am wahrscheinlichsten auftaucht. Hier sollte man auch Varianten darstellen – ähnlich wie Robustheitsanalysen in der Ökonometrie. Fachzeitschriften werden das vermutlich künftig stärker einfordern. Zur viel diskutierten Frage der Open-Source-Modelle: Natürlich ist Transparenz im Prinzip wünschenswert. Aber die meisten Forschenden können mit den offenen Modellgewichten ohnehin wenig anfangen. Für die Praxis ist daher weniger entscheidend, ob man die internen Matrizen eines Modells einsehen kann, sondern ob klar dokumentiert ist, welches Modell verwendet wurde, mit welchen Parametern, welchen Eingabedaten und welchen Ergebnissen. Das ist die Ebene, die wirkliche Nachvollziehbarkeit schafft.

Wenn Sie beispielsweise ein journalistisches Medium labeln – wie prüfen Sie, ob die Qualität stimmt? Früher haben Studierende solche Aufgaben übernommen, und da musste man ja auch die Ergebnisse bewerten. Wie machen Sie das heute?

UM: Das ist tatsächlich noch ein offener Punkt. Früher hat man meist ein eigenes Machine-Learning-Modell trainiert, und der Goldstandard war das menschliche Auge: Gutachter:innen erwarteten, dass zumindest ein Teil der Daten von Menschen – häufig Studierenden – manuell eingeschätzt wurde. Heute ist der Ablauf ähnlich, nur dass an die Stelle eigener Modelle oft LLMs mit spezifischen Prompts treten. Auch hier überprüft man ein Subsample und vergleicht die Ergebnisse mit menschlichem Labeling. Ein zweiter, eleganterer Ansatz ist, mehrere Human Labeler und zusätzlich verschiedene LLMs einzusetzen. Dann untersucht man, wo Abweichungen auftreten – zwischen Menschen, zwischen Mensch und Modell oder auch zwischen mehreren Modellen. Als zufriedenstellend gilt es meist dann, wenn die Unterschiede zwischen Mensch und Maschine nicht größer sind als die zwischen zwei Human Labelers – also wenn da das Agreement ähnlich hoch ist.

Das passiert dann stichprobenartig?

UM: Genau. Man zieht eine Zufallsstichprobe, etwa 500 Texte, die von mehreren Personen manuell gelabelt werden. Diese Ergebnisse vergleicht man mit den Modell-Ausgaben. Parallel gibt es inzwischen Benchmarks der Anbieter selbst – etwa wie gut GPT beim „Bar Exam“ abschneidet oder bei Physikprüfungen auf Doktoratsniveau. Das wirft die Frage auf, ob unser bisheriger Goldstandard – das manuelle Labeling durch Studierende – wirklich der beste Maßstab ist. Abweichungen vom Human Labeling müssen nicht zwingend Fehler sein; sie können auch auf bessere Ergebnisse hindeuten. Das Grundproblem ist: Wie bewertet man Modelle überhaupt? Die Industrie experimentiert intensiv mit Evaluationsmethoden, und davon können wir in der Forschung lernen. Für uns im Bereich Text-Labeling in den Wirtschaftswissenschaften ist das ein kleiner Teil dieser großen Debatte. Aktuell gilt aber nach wie vor: Human Labeling ist der anerkannte Goldstandard. Wer ein Modell einsetzt, muss zeigen, dass dessen Ergebnisse mindestens so gut sind wie die menschlichen.

In der Medienökonomik spielt die Textdatenanalyse eine zentrale Rolle. Nun nutzen aber auch Journalist:innen zunehmend ChatGPT, um Texte zu verfassen. Haben Sie bereits beobachtet, dass sich dadurch die sprachlichen Muster verändern und sich politische Einstellungen schwerer herauslesen lassen?

UM: Nein, in dieser Form nicht. Unsere Erwartung ist, dass bei Medienoutlets die redaktionelle Kontrolle durch die Chefredaktion stark genug bleibt, damit die intendierte politische Haltung weiterhin erkennbar ist. Aber Ihr Punkt ist wichtig, denn in anderen Bereichen zeigt sich das Problem deutlicher – etwa bei Hotelbewertungen oder Beiträgen auf Plattformen wie X oder LinkedIn. Dort nutzen viele Menschen ChatGPT direkt für das Schreiben. Früher war das Hauptproblem, Bots aus den Daten herauszufiltern. Heute posten reale Accounts, aber deren Sprache wirkt zunehmend bot-artig. Für die Forschung, die Meinungen aus Social-Media-Beiträgen extrahiert, entsteht so ein neues „Bot-Problem“: Auch verifizierte menschliche Accounts produzieren Texte, die sich stilistisch angleichen und dadurch vielleicht ähnlicher als wir wollen.

Lassen Sie uns noch einmal über KI und Open Science sprechen. Open Science setzt auf Zugänglichkeit, Replizierbarkeit und Transparenz. Proprietäre KI-Modelle gelten jedoch als Black Boxes. Wo sehen Sie Überschneidungen oder auch Anwendungsfelder, in denen sich beide Entwicklungen gegenseitig verstärken können? Kann KI Open Science voranbringen – etwa durch höhere Computational Reproducability?

UM: Ein Punkt vorweg: Auch Open-Source-Modelle sind für die meisten eine Black Box. Selbst Anbieter wie Meta veröffentlichen bei den Llama-Modellen nicht alle Details zum Training. Das Versprechen völliger Offenheit wird also nur teilweise eingelöst. Für die Forschung wäre es viel hilfreicher zu wissen, wie genau Modelle beispielsweise auf politische Korrektheit getrimmt wurden – diese Informationen fehlen aber oft. Wo ich jedoch großes Potenzial sehe, ist die Replizierbarkeit. Früher wurde Text-Labeling von Studierenden durchgeführt. Im Artikel konnte man lediglich beschreiben, wie sie instruiert wurden – eine exakte Reproduktion durch andere Personen war praktisch unmöglich. Heute kann man ein Modell als „konstanten Labeler“ einsetzen: Mit klar dokumentierten Angaben zu Modellversion, Parametern und Prompts lässt sich der Prozess später exakt nachspielen. Damit steigt die Replizierbarkeit im Bereich der Textanalyse erheblich, auch wenn die Modelle selbst Black Boxes bleiben.

Und wie ist das in Ihrem Feld? Ist es inzwischen üblich, dass Forschende Modell, Datum, Prompt oder Trainingsdetails offenlegen?

UM: Noch nicht. In vielen Working Papers findet man nur knappe Hinweise wie „ChatGPT wurde zum Labeln genutzt“. Damit ist eine Nachvollziehbarkeit natürlich nicht gewährleistet. Ich habe vor einigen Monaten den Data Editor der AEA, Lars Vilhuber, bei einem Workshop getroffen, der zu diesem Thema referierte. Ich denke, sein Vorschlag geht in die Richtung, künftig verbindlich anzugeben: Welches Modell wurde genutzt, zu welchem Zeitpunkt und mit welchen Parametern. Das würde als Mindeststandard genügen. Nach meinem Verständnis arbeitet er an entsprechenden Empfehlungen, die dann vom Board beschlossen werden müssten. Wahrscheinlich werden wir schon bald – vielleicht noch in diesem Jahr – von großen Organisationen wie der AEA klare Richtlinien erhalten. Diese könnten auch festlegen, wie Prompts dokumentiert werden sollen. Vergleichbare Standards gibt es ja bereits für Experimente, wo Protokolle nach festen Templates veröffentlicht werden müssen. Ich erwarte, dass sich ähnliche Regeln nun auch für den Einsatz von LLMs etablieren werden.

Abseits der Textanalyse – in welchen Bereichen erwarten Sie in den kommenden Jahren Entwicklungen beim Einsatz von LLMs in der empirischen Wirtschaftsforschung?

UM: Ein zentraler praktischer Aspekt betrifft den Forschungsalltag. Empirische Arbeiten erfordern viel Datenaufbereitung: Variablen müssen codiert, Regressionsmodelle spezifiziert und umfangreicher Code geschrieben werden. Mit LLMs lässt sich dieser Code heute schon verlässlich und schneller entwickeln, was Prozesse beschleunigt und mehr Raum für inhaltliche Überlegungen schafft. Auch in der Theorie sehe ich Parallelen. Kolleg:innen beispielsweise aus der Wirtschaftstheorie nutzen Modelle, um Skizzen von Beweisen zu prüfen oder alternative Formulierungen vorzuschlagen. Was früher an Doktorand:innen oder Co-Autor:innen weitergegeben wurde, kann heute zusätzlich von KI gespiegelt werden – nicht als Ersatz, aber als produktive Ergänzung. Ich denke, das ist ein ganz wichtiger Bereich. Darüber hinaus eröffnet sich Potenzial in der Computational Economics, insbesondere bei agentenbasierten Simulationen. Dort lassen sich mit LLMs deutlich komplexere Verhaltensmuster für simulierte Konsument:innen oder Produzent:innen erzeugen – teils auch mit lokal einsetzbaren Modellen. Zwar habe ich dazu bislang wenig publizierte Arbeiten gesehen, doch das Potenzial halte ich für erheblich.

Wenn wir noch einmal auf KI und Open Science schauen – wo sehen Sie Potenziale, die bislang kaum genutzt werden? Die Entwicklung der KI-Tools schreitet rasant voran, es gibt bereits Tausende von Anwendungen. Wohin könnte die Reise gehen?

UM: Meine Hoffnung ist, dass in der Open-Science-Community KI-Tools entstehen, die den Aufwand für Transparenz deutlich verringern. Ein einfaches Beispiel wäre die Erstellung von Replikationspaketen. Heute ist das eine zeitaufwendige, manuelle Arbeit. KI könnte diesen Prozess semiautomatisieren – etwa beim Verfassen von README-Dateien. Diese müssen so klar formuliert sein, dass auch Personen, die die Daten noch nie gesehen haben, den Ablauf in wenigen Minuten verstehen. Das ist in der Praxis oft schwierig: Was mir als Autor selbstverständlich erscheint, ist für andere nicht sofort nachvollziehbar. Hier können KI-Modelle sehr hilfreich sein. Ich nutze sie bereits für meine eigenen Codeskripte, um die Dokumentation zu verbessern. Die generierten Erklärungen sind oft detailliert, verständlich und sparen viel Zeit. Statt Stunden dauert es nur wenige Minuten. Würden solche Tools breiter eingesetzt, wäre es nicht nur für Forschende einfacher, ihre Arbeit transparent zu machen, sondern auch für andere, die auf diese Open-Science-Angebote zurückgreifen wollen.

Man könnte sich auch vorstellen, verschiedene Personas einzusetzen: „Verstehst du diese README-Datei – und an welcher Stelle nicht?“

UM: Genau, so arbeiten einige dieser Tools bereits. Sie kombinieren mehrere Agenten: einer entwirft die Dokumentation, ein anderer prüft die Verständlichkeit, ein dritter evaluiert erneut. Das Problem ist weniger die Technik – die wäre heute schon verfügbar –, sondern die Ressourcenfrage: Wer entwickelt und finanziert solche Anwendungen im Kontext von Open Science? Der Vorteil wäre erheblich: Forschende müssten sich nicht mehr selbst mit jedem Detail der Dokumentation befassen, sondern könnten diese Aufgabe delegieren. Und auch Nutzer:innen, die mit KI eigentlich nichts zu tun haben wollen, würden profitieren, weil die Ergebnisse klarer, konsistenter und leichter zugänglich wären.

Vielen Dank!


*Das Interview wurde am 13. August 2025 geführt von Dr. Doreen Siegfried.

Über Prof. Dr. Ulrich Matter:

Prof. Dr. Ulrich Matter ist Professor für Applied Data Science an der Berner Fachhochschule und Affiliate Professor of Economics an der Universität St. Gallen. Seine Forschung bewegt sich an der Schnittstelle von Data Science, quantitativer Politökonomie und Medienökonomie im digitalen Raum. Matter ist Principal Investigator zweier vom Schweizerischen Nationalfonds geförderter Projekte: Consequences of Personalized Information Provision Online: Segregation, Polarization, and Radicalization (2022–2026) sowie Ideological Ad Targeting in Consumer Markets and the Political Market Place (2023–2027). Vor seiner Tätigkeit an der Universität St. Gallen war er Visiting Researcher am Berkman Klein Center for Internet & Society der Harvard University.

Kontakt BFH: https://www.bfh.ch/de/ueber-die-bfh/personen/b3kow3zcylq4/

LinkedIn: https://www.linkedin.com/in/ulrich-matter-55b501bb/

Persönliche Webseite: https://umatter.github.io/

GitHub: https://www.github.com/umatter




Zurück zum Open-Science-Magazin