„Wir brauchen in der BWL eine ganz neue Art von Infrastruktur“

ZBW ist Infrastrukturpartner in den wirtschaftswissenschaftlichen NFDI-Konsortien

Porträt von Prof. Dr. Florian Stahl


Im Oktober 2021 startete das NFDI-Konsortium für Betriebswirtschaftslehre und verwandte Daten (BERD@NFDI) seine Arbeit. BERD@NFDI will bis 2026 für seine Fach-Community eine leistungsstarke Forschungsdateninfrastruktur entwickeln für die Sammlung, Verarbeitung, Analyse und Aufbewahrung von Geschäfts-, Wirtschafts- und verwandten Daten – hochgradig vernetzt an verschiedenen Orten, aber zugänglich über einen „single point of entry“.

BERD@NFDI möchte die integrierte Verwaltung von Algorithmen und Daten über den gesamten Forschungszyklus hinweg erleichtern, wobei ein besonderer Schwerpunkt auf unstrukturierten (großen) Daten wie Video-, Bild-, Audio-, Text- oder mobilen Daten liegt, die das Verhalten von Nutzer:innen in Geschäftskontexten widerspiegeln.

Prof. Dr. Klaus Tochtermann zum Beitrag der ZBW in BERD@NFDI: „Die ZBW ist verantwortlich für die Entwicklung von Infrastrukturkomponenten für BERD@NFDI, die wesentliche Phasen im Lebenszyklus von Forschungsdaten unterstützen. Die ZBW bringt insbesondere ihre Kenntnisse ein in Sachen Forschungsdatenmanagement und digitale Informationsinfrastrukturen, einschließlich der Technologien, die im Rahmen verschiedener Forschungsdatenprojekte wie beispielsweise GeRDI entwickelt wurden.“

Welche Bedeutung ausgerechnet unstrukturierte Daten in der BWL haben, erklärt Prof. Dr. Florian Stahl, Professor für Marketing an der Universität Mannheim und Sprecher des Konsortiums BERD@NFDI:

Welche Bedeutung haben ausgerechnet unstrukturierte Daten in der BWL?

FS: Es gibt in der BWL viele intangible, das heißt ungreifbare Themen. Denken Sie beispielsweise an die Markenwahrnehmung. Die Marke eines Produktes oder einer Dienstleistung spielt in der BWL eine große Rolle. Mit quantitativen Methoden kann man diese jedoch schwer erfassen, wenn man nur strukturierte Daten zur Verfügung hat. Heute liegen uns Bilder, Texte, Icons und sogar Videos vor, in denen Menschen ihre Wahrnehmung einer Marke und ihr Verhältnis zu Marken zum Ausdruck bringen. Das heißt, wir haben mit den unstrukturierten Daten ganz neue Möglichkeiten, diese intangiblen Themen systematischer und quantitativ zu erforschen.

Wie entwickelt sich das Wachstum unstrukturierter Daten?

FS: Es gibt diverse Schätzungen in Maßen wie Terabyte oder Zettabyte. Das Wesentliche ist aber, dass die Daten in ihrer Vielfalt anwachsen und wir in immer mehr Bereiche der Wirtschaft Einblick bekommen, die bislang für die Wissenschaft eine Black Box waren. Durch die Digitalisierung aller Prozesse des Lebens und der Unternehmen entstehen Daten, die der Forschung ganz neue Möglichkeiten bieten.

Mit welchen Methoden wird hier in der BWL gearbeitet, v.a. bei diesem Datenvolumen?

FS: Im Gegensatz zu strukturierten Daten kann man natürlich unstrukturierte Daten nicht direkt mit statistischen Methoden auswerten. Wir werden hier viel mit Machine-Learning-Methoden arbeiten und mit anderen Methoden der Künstlichen Intelligenz, um aus den unstrukturierten Daten gewisse Muster herauszulesen. Damit können wir dann die empirische Arbeit und statistische Analyse fortsetzen.

Welche Rolle spielen Methoden der KI in der BWL?

FS: In den letzten fünf Jahren hat die Künstliche Intelligenz nachweislich Einzug in alle Teildisziplinen der BWL gehalten. Das hängt natürlich mit den neuen Datentypen zusammen, die sich nicht ohne Vorarbeit unmittelbar auswerten lassen. Daher wird KI in der BWL immer bedeutsamer.

Welche Anforderung stellt diese Situation an eine Forschungsdateninfrastruktur wie BERD?

FS: Die BWL ist eine Disziplin, die sich fortlaufend und sehr dynamisch weiterentwickelt. Das macht auch ihren Reiz aus. Das heißt, wir können heute nicht mehr ausschließlich mit den Methoden arbeiten, die wir vor zehn Jahren angewendet haben. Wir müssen uns die Methoden der Künstlichen Intelligenz, des maschinellen Lernens aneignen um diese dann in der Forschung anzuwenden. Dazu brauchen wir in der BWL eine neue Art von Infrastruktur, die nicht nur allein auf die großen Datenmengen ausgerichtet ist. Wir brauchen eine Infrastruktur, wo wir uns in der Anwendung von Methoden auf bestimmte Datentypen besser austauschen und vernetzen und natürlich gemeinsam Ressourcen nutzen können. Das ist ein ganz wesentlicher Unterschied.

Haben Sie ein Beispiel?

FS: Ja.Wenn Sie ein statistisches Verfahren wie beispielweise eine Regression anwenden, kommt immer das gleiche Ergebnis raus, wenn wir den gleichen Datensatz haben. Das ist aber in der künstlichen Intelligenz, insbesondere bei den neuronalen Netzen, nicht der Fall. Wenn ich ein neuronales Netz beispielsweise auf gewisse Bilder von Instagram trainiere, dann ist es von Vorteil, wenn ich am Ende nicht nur die Daten teile, sondern auch das neuronale Netz. Sprich, wenn Sie eines Tages auch Bilder von Instagram mit einer anderen Forschungsfrage analysieren wollen, dann ist es für Sie von Vorteil, wenn Sie nicht nur meine Instagram-Daten verwenden können, sondern auch mein neuronales Netz. Und das ist der Unterschied zur Vergangenheit, wo man nur die Daten teilen musste. In der Zukunft brauchen wir nicht nur eine Archivierung der Daten und ein Teilen der Daten usw., sondern wir brauchen zudem den Algorithmus, der eine immer größere Rolle spielt. Sonst ist auch die Replizierbarkeit gar nicht mehr gewährleistet.

Welche Anforderungen stellen sich an eine so umfassende Forschungsdateninfrastruktur?

FS: Es braucht Speicher, Rechenkapazitäten, vor allem in Bezug auf Grafik-Rechenkapazitäten, weil natürlich unterschiedliche unstrukturierte Daten mit verschiedenen Prozessoren ausgewertet werden. Das ist aber mehr von der Hardware her gedacht. Ich glaube, das Wesentliche ist, dass wir uns in der BWL in Richtung Open Science entwickeln müssen. Momentan nutzen viele Forschende vorgefertigte Lösungen von großen amerikanischen Konzernen, wie die Google API oder Amazon Web Services, die durchaus bequem sind, die aber nicht das Kernproblem lösen, dass ich am Schluss neben den Daten den Algorithmus und das neuronale Netz mitspeichern kann. Nochmal: Nur so kann ich die Replizierbarkeit meiner Forschung überhaupt erst gewährleisten. Momentan wird viel mit solchen bequemen Lösungen gearbeitet, die aber am Schluss solchen wissenschaftlichen Standards nicht entsprechen.

Vielen Dank!

Das Interview führte Dr. Doreen Siegfried.

BERD – Eine Infrastruktur für Daten, Algorithmen und neuronale Netze
Für BERD@NFDI stehen neben Daten auch Algorithmen und Technologien im Fokus, mit denen die Daten gesammelt, aufbereitet und analysiert werden können. Durch die Einbindung der zentralen wissenschaftlichen Fachgesellschaften in den Wirtschafts- und Sozialwissenschaften und durch eine Erhebung unter Nachwuchsforschenden sollen Nutzerbedürfnisse identifiziert und berücksichtigt werden. BERD@NFDI fokussiert das integrierte Management (un-)strukturierter Daten und zugehöriger wissenschaftlicher Software in Wissenschaft und Wirtschaft und bekennt sich klar zur Offenheit (z.B. Open Software, Open Standards) und Nachvollziehbarkeit (insbesondere FAIR Data Principles).

Partner der ZBW:

  • GESIS – Leibniz-Institut für Sozialwissenschaften
  • Institut für Arbeitsmarkt- und Berufsforschung
  • Ludwig-Maximilians-Universität München
  • Universität Hamburg
  • Universität Mannheim (Koordinator)
  • Universität zu Köln




Zurück zum Open-Science-Magazin