„Wir organisieren nicht nur Daten, wir sichern wissenschaftliche Handlungsräume.“

Interview mit Susanne Schmucker

Foto: Kaja Grope

Text and Data Mining verändert gerade im Lichte von generativer KI, wie Forschung mit Wissen arbeitet. Für wissenschaftliche Bibliotheken verschiebt sich damit der Kernauftrag von „Zugang ermöglichen“ hin zu „Nutzbarkeit absichern“. Über die damit verbundenen Fragen zu Lizenzen, Schnittstellen, Metadaten, Dokumentation, Langzeitverfügbarkeit und Datensouveränität sprechen wir mit Susanne Schmucker, Leiterin des Programmbereiches Bestandsentwicklung & Metadaten der ZBW.

Warum ist das Thema Text and Data Mining für Bibliotheken mehr als ein Techniktrend?

S. Schmucker: Text and Data Mining, kurz TDM, umfasst Verfahren, mit denen große Mengen an Texten und Daten automatisiert ausgewertet werden bis hin zur Vorbereitung von Trainingsdaten für KI-Anwendungen. Für Bibliotheken verschiebt sich damit die Bedeutung von „Zugang“. Es reicht nicht, Inhalte lesbar bereitzustellen. Forschung will Texte und Daten zu Korpora zusammenstellen, maschinell verarbeiten, versionieren, dokumentieren und später prüfen können. Damit berührt TDM bibliothekarische Kernaufgaben wie Lizenzmanagement, Metadatenarbeit, Bereitstellung, Langzeitverfügbarkeit und Beratung.

Was wird in der TDM-Debatte häufig zu wenig berücksichtigt?

S. Schmucker: Außerhalb der bibliothekarischen Community wird oft verkannt, dass TDM und KI oft nicht an Rechenleistung scheitern, sondern an der Datenbasis. Daten liegen in Silos, sind nicht maschinenlesbar oder die Lizenzbedingungen sind intransparent und unzureichend. Dann wird aus einer technischen Methode ein Abstimmungsprojekt. Der Aufwand liegt häufig in der Rechteprüfung, im Zugang, der Datenbereinigung oder der Datenselektion. Und damit dort, wo Bibliotheken eine zentrale Rolle haben.

Wo entstehen die ersten praktischen Probleme, wenn Forschende TDM anfragen?

S. Schmucker: Für Forschende starten die Probleme meist beim Korpusaufbau. Welche Quellen dürfen genutzt werden? Wie kommen sie technisch in das Korpus? Und wie wird der Datenstand dokumentiert? Gerade bei lizenzierten Plattformen fehlen oft stabile Schnittstellen oder die klare Erlaubnis für maschinelle Verarbeitung. Das führt zu Unsicherheit und Korpora, die wissenschaftlich schwer bis gar nicht reproduzierbar sind.

Was ist im Lizenzbereich heute der häufigste Stolperstein?

S. Schmucker: Ein elementares Thema! Die Lücke zwischen „Zugang“ und „Nutzbarkeit“ ist hier oft eine Hürde. Viele Verträge regeln das Lesen, aber nicht eindeutig die maschinelle Verarbeitung. Oder die Lizenzinformation ist nicht maschinenlesbar an der einzelnen Publikation dokumentiert. Dann bleibt offen, ob automatisiertes Herunterladen, Speichern über längere Zeiträume oder das Teilen eines Korpus mit unterschiedlichen Kooperationspartnern zulässig ist.

Was ist der nächste sinnvolle Schritt für Bibliotheken in diesem Kontext?

S. Schmucker: Was wir brauchen, ist ein in schlanker Standardprozess für TDM-Anfragen aus der Forschung, der Rechte, Technik und Dokumentation zusammenführt. Das heißt: Datenquelle und Schutzbedarf klären, Nutzungsbedingungen prüfen, Zugangspfad festlegen, Dokumentations- und Versionierungsstandard definieren und Zuständigkeiten benennen. Ergänzend hilft ein Daten- und Lizenzkatalog, der sichtbar macht, welche Bestände wie nachnutzbar sind und unter welchen Bedingungen.

Danke!

Über Susanne Schmucker:

Susanne Schmucker arbeitet seit 2009 an der ZBW – Leibniz-Informationszentrum Wirtschaft. Seit Oktober 2025 leitet sie den Programmbereich Bestandsentwicklung und Metadaten. Susanne Schmucker verbindet auf Basis eines wirtschaftswissenschaftlichen Studiums die Expertise in Wissensorganisation, Metadatenmanagement und nutzerorientierten Informationsdiensten mit dem Ziel, Zugang in nachhaltige Nutzbarkeit für Forschung zu übersetzen.

Foto: Kaja Grope

Der Text wurde erstellt am 22. April 2026.

Zurück zum Open-Science-Magazin