Metadaten für transparente KI-Forschung und KI-Nutzung
Metadaten, Rechte, Qualität und Versionen – eine Prozessgeschichte in Grafiken

Illustration: Anne Vagt
KI-gestützte Forschung wird dann überprüfbar, wenn Datenwege sichtbar sind. Die Illustration zeigt, welche Nachweise eine Datensammlung begleiten müssen, damit Forschung Ergebnisse einordnen und reproduzieren kann. Quellenkette und Provenienz, Rechte- und Lizenzstatus, dokumentierte Qualitätswerte sowie eindeutig referenzierbare Versionen. Bibliotheken wie die ZBW können diese Informationen systematisch erfassen und bereitstellen, als Infrastruktur zwischen Sammlung, Aufbereitung und Nachnutzung. Metadaten sind dabei nicht bloß Begleittext, sondern strukturierte Daten über Daten. Sie folgen syntaktischen und semantischen Regeln und müssen technisch wie inhaltlich zwischen Systemen und Domänen austauschbar sein. Sie entstehen automatisiert oder kuratiert und werden fortlaufend angereichert und aktualisiert als Basis für kooperative Arbeitsprozesse und Datenaustausch in Forschungsinfrastrukturen.
Metadaten als Kernaufgabe einer ZBW-Dateninfrastruktur
KI-Verfahren werden in der Forschung eingesetzt, um Texte, Publikationslandschaften und digitale Bestände auszuwerten, beispielsweise für Themenanalysen, Trendbeobachtung oder die Verknüpfung von Publikationen mit Datensätzen. Für belastbare Ergebnisse jedoch genügt dabei „Text als Input“ nicht. Entscheidend ist, ob die zugrunde liegende Datenbasis so beschrieben ist, dass sie sich prüfen, zitieren und über Zeit vergleichen lässt. Metadaten sind in dieser Logik keine Ergänzung, sondern die infrastrukturelle Schicht, die Auffindbarkeit, maschinelle Nutzbarkeit und Anschlussfähigkeit über Systeme hinweg herstellt. Als strukturierte „Daten über Daten“ folgen Metadaten definierten syntaktischen und semantischen Regeln und müssen technisch wie inhaltlich zwischen Systemen und Fachdomänen austauschbar sein. Sie entstehen automatisiert oder kuratiert und werden kontinuierlich angereichert und aktualisiert, als Basis für kooperative Zusammenarbeit und Datenaustausch in Forschungsinfrastrukturen.
In Form von Normdaten und in Kombination mit persistenten Identifikatoren erhalten Metadaten zudem eine referenzierende und relationierende Funktion. Personen und Organisationen werden eindeutig referenzierbar, und digitale Querverweise zu Werken, Begriffen, Forschungsdaten und wissenschaftlicher Software können stabil abgebildet werden. Diese Mechanik ist auch die Grundlage dafür, Metadaten als Linked Open Data zu publizieren und in Ontologien bzw. Knowledge Graphs einzubinden, um viele Quellen in integrierten Wissensstrukturen zusammenzuführen.
„Linked Open Data setzt eine erhöhte semantische Interoperabilität von Normdaten voraus“, erklärt Dr. Andreas Oskar Kempf, wissenschaftlicher Mitarbeiter der ZBW und Experte für Taxonomie- und Thesaurus-Management. „Während kontrollierte Vokabulare früher primär auf die Nutzung in der eigenen Sammlung ausgerichtet waren, ist heute entscheidend, dass Konzepte in ähnlicher Weise modelliert werden, so dass unterschiedliche Vokabulare miteinander verknüpft werden können.“
Vor diesem Hintergrund beschreibt die ZBW die Generierung standardisierter, qualitativ hochwertiger und strukturierter Metadaten für Publikationen als Kern ihrer Rolle als Informationsinfrastruktur für die Wirtschaftswissenschaften. Metadaten dienen nicht nur der Recherche, sondern werden als Voraussetzung verstanden, um Bestände in datenintensiven Forschungssettings verlässlich nutzbar zu machen. Für die Wirtschaftswissenschaften übernimmt die ZBW hier eine nationale Schlüsselrolle. Sie produziert bereits heute zum großen Teil die wirtschaftswissenschaftlichen Metadaten in Deutschland. Damit sind Anforderungen an Qualität, Konsistenz und Interoperabilität unmittelbar mit dem laufenden Betrieb verbunden.
Zentral ist dabei der Anspruch der ZBW, Metadaten künftig nicht nur für menschliche Nutzung zu optimieren, sondern für maschinelle Verarbeitung und Integration in semantische Web-Umgebungen. Konkrete Bausteine der ZBW-Metadateninfrastruktur sind dabei zum einen die Orientierung an etablierten Metadatenstandards (u. a. Dublin Core, MARC21), zum anderen der Einsatz persistenter Identifikatoren, insbesondere DOIs über DataCite, weiterhin die Nachverfolgbarkeit und langfristige Referenzierbarkeit sowie letztlich Linked-Data-Architekturen und offene Schnittstellen, um technische und semantische Interoperabilität mit externen Systemen zu ermöglichen.
Dass diese Elemente nicht nur infrastrukturell, sondern auch analytisch relevant sind, hebt Anke Böhrnsen hervor, die in der ZBW die Abteilung Integrierte Erwerbung und Katalogisierung leitet. „Die hohe Datenqualität der ZBW beruht auf der konsequenten Anreicherung und Vernetzung ihrer Datensätze – ein zentraler Schritt, um bibliometrische Auswertungen zu ermöglichen und die Zukunftsfähigkeit der Daten als Linked Data zu sichern.“
Vom Schlagwort zum maschinenlesbaren Kontext
Die ZBW bereitet ihre Metadaten so auf, dass sie vielfältig genutzt werden können. Neben bibliografischen Angaben werden auch strukturelle und semantische Informationen erfasst – also zu Inhalten und Beziehungen dazwischen. So lassen sich Daten besser verknüpfen, zum Beispiel zwischen Publikationen, Forschenden und Themen. Eine wichtige Grundlage dafür ist der von der ZBW entwickelte Standard-Thesaurus Wirtschaft (STW), ein offenes, kontrolliertes Vokabular für wirtschaftswissenschaftliche Begriffe. Der STW ist das weltweit umfassendste bilinguale Fachvokabular, der alle ökonomischen Themenfelder und wichtigen benachbarten Sachgebiete abdeckt.
Dr. Lena Dolud, wissenschaftliche Mitarbeiterin der ZBW, erläutert: „Der STW liefert stabile Begriffe und Relationen, die wir in Metadaten verankern und über Mappings – zum Beispiel zur Gemeinsamen Normdatei (GND) – anschlussfähig machen, damit Themen über Bestände, Systeme und Sprachen hinweg konsistent referenzierbar bleiben und eine vielfältige Nachnutzung durch die wirtschaftswissenschaftliche Fachgemeinschaft und im Semantic Web möglich ist.“
Technische Anschlussfähigkeit als Ziel
Die beschriebenen Komponenten sind für die ZBW nicht nur Architekturentscheidungen, sondern Voraussetzungen für Anschlussfähigkeit. Metadaten sollen so bereitgestellt werden, dass sie in externen Infrastrukturen, Werkzeugketten und Analyseumgebungen eingesetzt werden können, auch dort, wo Daten aus unterschiedlichen Quellen zusammengeführt werden. Das entspricht zugleich dem Infrastrukturziel, interoperable Metadaten als Grundlage für Integration, Verteilung und Austausch von Wissen zu etablieren.
Automatisierung mit Qualitätssicherung
Für die laufende Metadatenproduktion setzt die ZBW auf Automatisierung, um steigende Mengen und heterogene Ressourcen zeitnah erschließen zu können. Zentral sind hier KI-gestützte Erschließungsworkflows, die mit einem „human-in-the-loop“-Ansatz kombiniert werden, um Qualität und Aufsicht sicherzustellen. Damit wird Skalierung im Betrieb mit der Anforderung verbunden, Metadaten als Referenz- und Nachweisschicht kontrollierbar zu halten.
Wie Dr. Argie Kasprzik aus der ZBW erläutert, hilft Automatisierung zwar dabei, große Mengen zu erschließen, die Verantwortung werde jedoch nicht im System belassen. Dr. Argie Kasprzik erklärt: „Wir kombinieren eine automatisierte Anreicherung auf der Basis von Machine-Learning-Methoden mit einem Finetuning auf intellektuell annotierten Daten und stichprobenartiger fachlicher Prüfung – das ist unser ‚human-in-the-loop‘-Prinzip.“
Externe Metadaten integrieren, Unterschiede ausgleichen
Eine wiederkehrende Belastungsprobe ist die Integration externer Metadaten, denn viele Dateninfrastrukturen verfügen nicht über ausreichende Qualität oder Standardisierung, der durch sie bereitgestellt Metadaten. Das erschwert nahtlose Interoperabilität und begrenzt den Nutzen aggregierter Datenbestände. Die ZBW ordnet die Bearbeitung dieser Differenzen als eine wichtige Aufgabe im Rahmen ihrer Metadatenstrategie ein – als fortlaufende Harmonisierung und Anschlussarbeit entlang von Standards, Mappings und Qualitätsanforderungen. Dr. Timo Borst, Leiter der Abteilung Innovative Informationssysteme und Publikationstechnologien in der ZBW: „Für KI-Forschung oder informationswissenschaftliche Forschung zählt nicht nur, was im Datensatz steht, sondern was wir darüber nachweisen können, sprich: Herkunft, Version, Qualitätsstand und Nutzungsrechte. Metadaten sind für uns der belastbare Bezugspunkt.“
Der Text wurde erstellt im März 2026.
