Fortgeschrittene Datenanalyse und Forschungsmanagement mit BERD@NFDI

Die Integration unstrukturierter Daten in wirtschaftswissenschaftliche Forschungsprozesse

Illustration

Grafik: BERD@NFDI

Im Zeitalter der Digitalisierung und der exponentiell wachsenden Datenmengen stehen Forschende vor der Herausforderung, aus der Fülle unstrukturierter Daten wertvolle Erkenntnisse zu gewinnen. Die Bedeutung dieser Daten für die wissenschaftliche Forschung, insbesondere in den Sozial- und Wirtschaftswissenschaften, kann nicht hoch genug eingeschätzt werden. Um diese Herausforderung zu bewältigen, hat das NFDI-Konsortium BERD@NFDI eine umfassende Plattform entwickelt, die den Zugang zu, die Analyse von und den Austausch von unstrukturierten Daten erleichtert. Diese Plattform bietet nicht nur Datensätze und Analysewerkzeuge, sondern auch Bildungsressourcen und Dienstleistungen, die Forschende bei der Navigation durch die komplexe Landschaft der unstrukturierten Daten unterstützen. Im Folgenden werden die vier zentralen Portal und Angebote von BERD@NFDI vorgestellt, die darauf abzielen, die wirtschaftswissenschaftliche Forschung in Deutschland und darüber hinaus zu unterstützen.

Das BERD-Datenportal

Das BERD-Datenportal bietet eine exklusive Auswahl an hochwertigen unstrukturierten Datensätzen, darunter der Youtube 8M-Datensatz, die Yelp-Business-Review-Daten und der Million-Playlist-Datensatz von Spotify. Diese Daten sind von hoher Forschungsrelevanz und wurden bereits in führenden Forschungspublikationen in den Sozialwissenschaften verwendet. Jeder Datensatz auf dem Portal ist mit umfassenden Metadaten versehen, darunter Informationen zu den Autor:innen, allgemeine Beschreibungen, Variablen, Größe des Datensatzes, Lizenzinformationen und Schlüsselwörter. Nutzer:innen können frühere Versionen eines Datensatzes finden, um Ergebnisse früherer wissenschaftlicher Studien zu reproduzieren.

BERD bietet auch Publikationsinformationen für jeden Datensatz, um den Kontext zu zeigen, in dem die Daten bereits in anderen wissenschaftlichen Studien verwendet wurden. Zudem werden die Datensätze in Zukunft mit maßgeschneiderten Analysemethoden verknüpft, um den Nutzer:innen zu helfen, die Daten optimal zu analysieren und zu verarbeiten. Zukünftig werden diese Datensätze durch eine breitere, weniger restriktive Sammlung von Daten aus verschiedenen Quellen ergänzt, um den Bedürfnissen der Nutzergemeinschaft gerecht zu werden.

Das Datenportal soll auch einen sicheren Datenmarktplatz enthalten für den kontrollierten Datenaustausch zwischen Forschern und Industrieunternehmen. Nutzer:innen können dann Forschungsvorschläge einreichen und Daten von Organisationen nutzen, um spezifische Fragen mit einzigartigen Datensätzen zu beantworten, die anderswo nicht verfügbar sind. Darüber hinaus können Nutzer:innen nach der Implementierung des Datenmarktplatzes ihre eigenen Datensätze, beispielsweise aus geförderten Forschungsprojekten, hochladen und teilen.

Das Datenportal von BERD soll einen umfassenden Zugang ermöglichen zu unstrukturierten Daten aus vergangenen und aktuellen wissenschaftlichen Forschungsarbeiten sowie zu wertvollen unternehmenseigenen Daten.

Das BERD-Analyseportal

Das Analyseportal erweitert die Funktionalität des Datenportals, indem es die vorhandenen Daten für Analysen zugänglich macht und so eine Brücke zwischen unstrukturierten Daten und dem traditionellen empirischen Forschungsmodell schlägt. Es integriert verschiedene Methoden, darunter Vorverarbeitung und maschinelles Lernen, sowie allgemeine Analyseverfahren wie Sentimentanalyse oder Themenmodellierung und verknüpft diese mit den entsprechenden Datensätzen aus dem Datenportal.

Anwender:innen haben die Möglichkeit, gezielt nach spezifischen Vorverarbeitungstechniken (etwa bezüglich Normalisierung, Merkmalsextraktion, Filterung und Lernverfahren für Merkmale), maschinellen Lernmethoden (beispielsweise Support-Vektor-Maschinen) oder bestimmten Analyseaufgaben im Kontext unstrukturierter Daten zu suchen.

Die Suchergebnisse bieten Metadaten und Verweise auf Publikationen in führenden wirtschaftswissenschaftlichen Fachzeitschriften, die die gewählten Techniken einsetzen. Alternativ können Nutzer:innen auf den Detailseiten des Datenportals Vorschläge für Methoden finden, die für einen bestimmten Datensatz geeignet sind. Das Analyseportal versetzt Forscher:innen zudem in die Lage, die Entwicklung der Anwendung bestimmter Methoden oder Analyseverfahren in den führenden wirtschaftswissenschaftlichen Zeitschriften über die Zeit zu verfolgen. Dadurch unterstützt das Portal Forscher:innen, die mit unstrukturierten Daten arbeiten möchten, indem es aufzeigt, wie diese analysiert werden können, welche Daten für spezifische Aufgaben geeignet sind und welche wissenschaftlichen Arbeiten mit ähnlichen Methoden oder Datensätzen bereits veröffentlicht wurden.

Die BERD-Academy

Das Schulungs- und Bildungsportal, auch bekannt als „BERD Academy“, ist ein integriertes Modul von BERD@NFDI. Hier werden sämtliche Bildungsangebote gebündelt, die darauf abzielen, die Datenkompetenz im Allgemeinen sowie den Umgang mit unstrukturierten Daten im Besonderen zu fördern. Nutzer:innen erhalten dadurch ein umfangreiches Rüstzeug, um die bereitgestellten Daten und Analysemethoden auf BERD effektiv für ihre Forschungszwecke zu nutzen. Das Angebot umfasst vertiefende Workshops, informative Webinare sowie verschiedene Lernmodule für Datenwissenschaft und Analytik, die zur Selbststudium geeignet sind. Die Kurse sind frei zugänglich und können sowohl persönlich als auch online besucht werden. Sie richten sich an ein breites Publikum, von Anfänger:innen bis hin zu Profis.

Im Jahr 2023 bot die BERD Academy eine Vielzahl von Veranstaltungen an, darunter eine Präsenzreihe zu Statistik für das Gemeinwohl, einen Workshop zu KI-basierten Methoden zur Nutzung von Text als Daten in den Sozialwissenschaften, Online-Flipped-Classroom-Kurse zur Reproduzierbarkeit von Forschung sowie Vorträge und Diskussionen zu FAIR-Daten und Datenschutz. Zudem fanden Veranstaltungen wie das DataFEST Deutschland und Women in Data Science statt. Diese etablierten Angebote werden auch zukünftig fortgeführt und weiterentwickelt.

Die Workshops und Kurse sind speziell für Forschende und Datenverantwortliche konzipiert und werden regelmäßig angeboten. Zudem werden sie durch maßgeschneiderte Angebote ergänzt, wobei ein besonderer Schwerpunkt auf einem bedarfsgerechten Kurs zum Forschungsdatenmanagement liegt.

Das BERD-Dienstleistungsportal

Das Dienstleistungsportal ergänzt die BERD-Plattform, indem es zusätzliche forschungsbezogene Dienste und Werkzeuge bereitstellt. Zunächst bietet es eine Reihe von Diensten im Bereich der optischen Zeichenerkennung (OCR) zur Unterstützung von Forscher:innen, die (un-)strukturierte Daten aus Bildern oder Texten extrahieren möchten. Insbesondere müssen gedruckte (nicht digital erstellte) Quellen in den Sozialwissenschaften, insbesondere in den Wirtschaftswissenschaften, zunächst mit Texterkennungsmethoden digitalisiert werden, um für empirische Analysen nutzbar zu sein. Dieser Schritt ist wesentlich für die Vorverarbeitung von nicht digitalen Datenquellen.

Der OCR-Empfehlungsdienst bietet eine Anleitung zur automatischen Transkription, Texterkennung sowie Vor- und Nachbearbeitungsoptionen basierend auf mehreren Fragen zu den zugrundeliegenden Bildern und dem Zweck der OCR. Die Ergebnisse können für die Planung und Durchführung von Redaktions- oder Digitalisierungsprojekten sowie die Volltextdigitalisierung bestimmter Werke, Werkreihen, Sammlungen oder Korpora verwendet werden. Zusätzlich wurde ein OCR-on-demand-Dienst eingeführt, der es den Benutzer:innen ermöglicht, eine sofortige OCR von digitalisiertem Material durchzuführen.

Für Forscher:innen, die mit ihren eigenen OCR-Pipelines zu kämpfen haben, hat BERD einen OCR-Helpdesk eingerichtet, der direkte Unterstützung bietet. Des Weiteren bietet das Dienstleistungsportal rechtliche Unterstützung bei datenbezogenen Fragen. Insbesondere hilft es den Nutzern, die Auswirkungen von Datenschutzbestimmungen auf ihre Arbeit mit Datensätzen und die gemeinsame Nutzung von Daten mit anderen zu verstehen.

Ein interaktiver virtueller Assistent (iVA) informiert den Nutzer über die Notwendigkeit, dass seine Forschungsdaten GDPR-konform sein müssen und welche Voraussetzungen für eine rechtmäßige Einwilligung in die Datenverarbeitung erfüllt sein müssen. Darüber hinaus enthält das Serviceportal Wissensgraphen für deutsche Unternehmensdaten auf Basis verschiedener Anbieter, Register und Zeithorizonte. Diese Wissensgraphen ermöglichen den Zugang zu zusätzlichen Rechts- und Vorverarbeitungshilfen sowie zu umfangreichen Unternehmensinformationen.

Zusammen mit den Daten-, Analyse- und Schulungsressourcen auf der Plattform eröffnen sich für die Nutzer:innen von BERD umfangreiche Möglichkeiten, mit großen und unstrukturierten Daten in den Sozialwissenschaften zu arbeiten.

Stand: 8. März 2024




Zurück zum Open-Science-Magazin