Wenn Forschungsdaten plötzlich weg sind

„Datensouveränität ist zuerst eine Frage von Entscheidungsrechten“ – Interview mit ZBW-Direktor Prof. Dr. Klaus Tochtermann

Foto: Sven Wied

Wissenschaftliche Arbeit hängt heute zunehmend von der Verfügbarkeit und Zugänglichkeit von Daten ab, die selten an institutionellen oder nationalen Grenzen endet. Dadurch entsteht eine neue Verwundbarkeit. Geopolitische Spannungen, innenpolitische Kurswechsel in Drittstaaten sowie Sanktions- und Exportkontrolllogiken können Zugänge zu Daten, Diensten oder Repositorien situativ einschränken. Was lange als verlässlich galt, wird damit politisch und verhandelbar.

Parallel verändert sich die Infrastruktur-Landschaft. Zentrale Datenbanken, Indexdienste sowie Cloud- und Plattform-Ökosysteme sind international ungleich verteilt. Europa hat investiert, bleibt aber in Teilen abhängig von Infrastrukturen, die außerhalb Europas betrieben oder gesteuert werden. Entscheidend ist dabei die Governance. Wer setzt Zugangs- und Nutzungsregeln, entscheidet über Weiterverwendung, Änderungen an Metadaten oder Depublikation?

KI verschärft diese Lage. Daten sind nicht nur Forschungsoutput, sondern Trainingsmaterial. Literatur wird zum Input für automatisierte Auswertung. Damit steigen Kommerzialisierungsanreize und Angriffsflächen, etwa durch Manipulation, „Poisoning“ oder eine Flut minderwertiger Inhalte.

Datensouveränität ist vor diesem Hintergrund zu einer politischen Priorität geworden. Eine der Kernfragen neben der erwähnten Governance ist: Wie bleibt Wissenschaft in Europa reproduzierbar, überprüfbar und handlungsfähig, ohne vertrauensvolle internationale Kooperation aufzugeben?

Ein prominenter Ort dieser Debatte war am 1. Oktober 2025 eine Panel-Diskussion im Europäischen Parlament zur Datensouveränität in der Forschung (Videomitschnitt: https://zbw.to/SUeCA). Dort war auch Prof. Dr. Klaus Tochtermann in seiner ehrenamtlichen Funktion als Präsident der European Open Science Cloud Association (EOSC-A) vertreten. Als Direktor der ZBW verbindet er Infrastrukturpraxis mit Fragen von Governance, Standards und Integrität. Über diese Perspektive haben wir mit ihm gesprochen.

Foto: Sven Wied

Welche Ausgangslage beschreibt die aktuelle europäische Debatte um Datensouveränität in der Forschung?

KT: Wir erleben derzeit eine Lage, in der wissenschaftliche Arbeit stärker von externen Rahmenbedingungen abhängt als viele lange angenommen haben. Datenzugänge, Repositorien, Such- und Indexdienste, Cloud- und Plattforminfrastrukturen sind nicht nur technische Bausteine, sondern Teil eines internationalen Gefüges aus Recht, Politik und Ökonomie. Wenn sich in den USA oder in China Bedingungen ändern, hat das unmittelbare Folgen für die Forschungspraxis hier bei uns in Europa und in Deutschland. Diese Folgen reichen von Verfügbarkeitseinschränkungen bis hin zu Einschränkungen bei der Nachnutzung und Replikation.

Es wird in diesem Kontext oft von „geopolitischer Verwundbarkeit“ als neuem Normalzustand gesprochen. Was ist daran neu? Gibt es Abhängigkeiten von kommerziellen Anbietern nicht schon lange?

KT: Neu ist die Kombination aus Tempo, Reichweite und Unsicherheit. Entscheidungen in Drittstaaten können kurzfristig Zugänge verändern, sei es durch administrative Maßnahmen, rechtliche Neuauslegungen oder politische Prioritätenverschiebungen. Für Forschende und Infrastrukturbetreiber bedeutet das, dass wir weniger davon ausgehen können, dass ein Dienst, ein Datensatz oder eine Schnittstelle morgen noch unter denselben Bedingungen verfügbar ist wie heute. Planbarkeit wird schwieriger, obwohl Forschung und Infrastrukturen auf Kontinuität angewiesen sind.

Worin besteht ganz konkret die Abhängigkeit Europas bei Dateninfrastrukturen?

KT: Zentrale Dateninfrastrukturen sind international ungleich verteilt. Wir reden von großen Plattformen, Rechenkapazitäten, Index- und Referenzdiensten, aber auch von bestimmten Spezialrepositorien. Europa hat leistungsfähige Einrichtungen. Aber oft hängen kritische Arbeitsprozesse von Diensten ab, die außerhalb Europas betrieben oder gesteuert werden. Das ist nicht automatisch ein Problem. Internationale Arbeitsteilung ist normal. Aber es ist ein Risiko, wenn es keine Alternativen, keine Fallbacks und keine abgesicherten Regeln gibt.

Welche Rolle spielt hier Governance?

KT: Governance umfasst zentrale Fragen wie: Wer definiert Zugangsregeln? Wer legt Nutzungsbedingungen fest? Unter welchen Bedingungen darf weiterverwendet werden, auch automatisiert? Wer kann Inhalte depublizieren oder Metadaten ändern? Welche Prioritäten gelten für eine Weiterentwicklung? Diese Fragen entscheiden darüber, ob Forschung reproduzierbar bleibt. Abhängigkeiten entstehen häufig „unsichtbar“, das heißt nicht als technische Störung, sondern über Vertragsbedingungen, API-Restriktionen, Lizenzmodelle oder proprietäre Formate.

Aktuell ist die internationale Wissenschaft mehreren Risikofelder parallel ausgesetzt, die sich zudem gegenseitig verstärken. Welche Wechselwirkungen sind aus Ihrer Sicht besonders relevant?

KT: Geopolitik beeinflusst Rahmenbedingungen, Ökonomie beeinflusst Zugänge und Anreize, KI verändert die Geschwindigkeit und das Risikoprofil. Wenn Daten knapper werden, steigt der Druck zu monetarisieren. Wenn KI auf diese Daten zugreift, steigen sowohl der Wert als auch die Angriffsfläche. Gleichzeitig wird das System empfindlicher: Schon kleine Störungen oder Manipulationen können größere Effekte auslösen, weil automatisierte Auswertung skaliert.

Wenn politische Eingriffe bis hin zu Löschung, Einschränkung oder Umdeutung von Daten reichen, was ist dabei der zentrale Schaden?

KT: Neben dem unmittelbaren Verlust oder der kurzfristigen Einschränkung ist der Vertrauensschaden für die Wissenschaft zentral. Wenn Forschende erwarten müssen, dass Datenbestände von geopolitischen oder wirtschaftlichen Lagen oder politischen Entscheidungen abhängig sind, dann sinkt die Verlässlichkeit der gesamten wissenschaftlichen Kette von der Datenerhebung, Archivierung, Reanalyse bis hin zur Replikation. Wissenschaftliche Arbeit braucht aber dringend stabile Referenzen und nachvollziehbare Versionen. Wenn das brüchig wird, leiden Arbeitsprozesse und damit die Qualitätssicherung. Wir müssen daher mehr Resilienz in die Infrastrukturen einbauen, sprich Redundanzen, Spiegelungen oder föderierte Knoten wie es beispielsweise die EOSC bereits vormacht. Zudem benötigen wir klare Zuständigkeiten und dokumentierte Prozesse für den Krisenfall.

Als besonders sichtbares Beispiel für Konzentrationsrisiken ist PubMed bekannt. Was ist an solchen Fällen systemkritisch?

KT: PubMed ist ein zentraler infrastruktureller Knoten für die Lebenswissenschaften. Wenn ein solcher dominanter Knoten wegfällt oder eingeschränkt wird, entsteht zuerst eine schmerzhafte Lücke und dann relativ schnell ein Markt für minderwertige Ersatzangebote, aggressive Kommerzialisierung oder im schlimmsten Fall Betrug. Das ist wie bei einem Unternehmen, das stark von einem einzigen Großkunden abhängt. Solange alles stabil ist, wirkt die Konzentration effizient. Ändert dieser Großkunde jedoch Bedingungen oder fällt weg, entsteht sofort ein Risiko, das sich nicht kurzfristig kompensieren lässt, weil Alternativen erst aufgebaut und integriert werden müssen. Resilienz entsteht in Wirtschaft und Wissenschaft durch Diversifizierung und belastbare Fallbacks. Damit man jetzt nicht unkoordiniert Doppelstrukturen aufbaut, muss natürlich priorisiert werden. Ziel ist nicht Parallelität um jeden Preis, sondern abgesicherte Handlungsfähigkeit.

Reden wir über KI. Mit dem Einzug von KI in die Arbeitsroutinen der akademischen Welt werden Daten auch zur Angriffsfläche. Was ist der Kern der sogenannten „Poisoning“-Problematik?

KT: Wenn Trainings- oder Referenzdaten gezielt manipuliert werden, können KI-Systeme systematisch falsche Ergebnisse liefern. Besonders kritisch ist das, wenn KI in sensiblen Bereichen eingesetzt wird, z.B. in der medizinischen Diagnostik. Zusätzlich gibt es die Verschmutzung wissenschaftlicher Literatur und Datenräume durch massenhafte Erzeugung minderwertiger oder betrügerischer Inhalte. Das ist nicht nur ein Qualitätsproblem, sondern ein Integritätsproblem. Es kann Vertrauen und Validität untergraben.

Was folgt daraus für Infrastrukturen?

KT: Security-by-design wird zentral. Wir reden hier von Risikoanalysen entlang der Datenpipeline, Mechanismen zur Erkennung von Manipulation, Versionierung und Provenienz, sowie Incident-Response-Pläne. Das ist nicht „IT als Nebenaufgabe“, sondern IT als Kernaufgabe des Wissenschaftsbetriebes. Wenn Daten Grundlage für Entscheidungen und Modelle sind, müssen Integrität und Nachvollziehbarkeit technisch und organisatorisch abgesichert sein.

In der ZBW spielt die Qualität von Metadaten für wissenschaftliche Zwecke eine große Rolle. Warum ist die Qualität so wichtig – auch in dem Kontext von Datensouveränität?

KT: Metadaten, die auch immer maschinenlesbar sein sollten, liefern den Kontext für die Forschung. Wie sind Daten entstanden? Unter welchen Bedingungen? Welche Anpassungen gab es? Ohne saubere Provenienz und Kontextbeschreibung ist verlässliche Nachnutzung schwer. Das gilt sowohl für Replikation als auch für KI-Training. FAIR-Prinzipien geben Orientierung, aber die Umsetzung erfordert Standards, Ressourcen und Verbindlichkeit. Sonst bleibt FAIR ein Anspruch, der in der Praxis nicht trägt.

Es scheint, wir brauchen ein ganzes Bündel an Maßnahmen für mehr Datensouveränität in Europa. Was ist aus Ihrer Sicht der rote Faden?

KT: Zuerst: Wissenschaft ist ein globales Unterfangen und wir wollen internationale Kooperation grundsätzlich nicht aufgeben. Abschottung ist keine Lösung. Aber wir brauchen mehr Resilienz durch Diversifizierung. Wir benötigen eigene Governance-Fähigkeit und verlässliche Infrastrukturketten. Europa muss Abhängigkeiten sichtbar machen, Alternativen und Fallbacks schaffen und Regeln so gestalten, dass Offenheit kontrolliert möglich bleibt. Kontrollierte Offenheit bedeutet hier, dass wir die Daten in der EOSC, die in erster Linie eine europäische Infrastruktur für Forschende aus den Mitgliedstaaten ist, einerseits schützen und andrerseits international anschlussfähig machen durch Verhandlungen mit befreundeten Ländern, um faire und verbindliche Vereinbarungen zur Datennutzung treffen zu können. Das entspricht nicht dem Ideal vollständiger Offenheit, ist wissenschaftspolitisch jedoch nachvollziehbar und pragmatisch.

Was heißt Datensouveränität als Governance-Programm in der Praxis?

KT: Datensouveränität ist zuerst eine Frage von Entscheidungsrechten. Daraus folgen Aufgaben wie gemeinsame Governance-Modelle, klare Zuständigkeiten zwischen Mitgliedstaaten, EU-Kommission und Einrichtungen des Wissenschaftssystems, die Abhängigkeiten nicht verdecken. Verträge und Standards müssen so gestaltet sein, dass man Risiken nicht erst bemerkt, wenn ein Zugang eingeschränkt wird.

Was halten Sie von langfristiger Finanzierung

KT: Ja, natürlich. Das ist elementar! Infrastrukturen sind Daueraufgaben. Resilienz braucht Redundanz, Spiegelung, föderierte Knoten, Sicherheit, Standards, Personal und Betrieb. Projektlogiken und befristete Finanzströme reichen dafür nicht. Wenn Europa Infrastruktur als strategische Fähigkeit versteht, muss Finanzierung Betrieb, Sicherheitsarbeit und Weiterentwicklung dauerhaft ermöglichen.

Wie sehen Sie beim Thema Abhängigkeiten und Datensouveränität in die nächsten Jahre?

KT: Datensouveränität ist kein Zustand, den man einmal erreicht hat. Datensouveränität ist ein fortlaufendes Governance-Thema. Entscheidend ist, Abhängigkeiten laufend zu identifizieren und zu bewerten, insbesondere durch kontinuierliche Risikoanalysen, Diversifizierung von Anbietern und Technologien sowie verbindliche Standards. Was mir hier wichtig ist: Daten können nicht losgelöst betrachtet werden von den Infrastrukturen. Die EOSC ist eine solche zentrale europäische Infrastruktur. Als eine vertrauenswürdige, FAIR-konforme Forschungsinfrastruktur von europäischen Anbietern trägt die EOSC wesentlich dazu bei, die Datensouveränität für Forschende in Europa nachhaltig zu sichern.

Vielen Dank!

Das Interview wurde geführt im April 2026.

Zurück zum Open-Science-Magazin