Wie man als Wirtschaftswissenschaftler:in spielerisch Machine-Learning-Methoden lernen kann
Bernd Bischl über Open Science, Research Software und die Machine-Learning-Plattform OpenML
Die drei wesentlichen Learnings:
- Mit der Plattform OpenML können Forschende ihre Daten unter anderem automatisch analysieren. Wirtschaftswissenschaftler:innen, die ihre theoretischen Kenntnisse zu Maschinellem Lernen ergänzen wollen, können OpenML als digitales Experimentierfeld nutzen und spielerisch lernen.
- Ressourcenkosten im Kontext von Open Science sind eine dynamische Größe. Sie sind eine Funktion davon, wie gut Forscher:innen ausgebildet sind und welche Werkzeuge sie kennen. Je besser Wirtschaftswissenschaftler:innen ausgebildet sind in der Anwendung von Open-Science-Tools, desto effizienter können sie Forschungsergebnisse teilen.
- Das NFDI-Konsortium BERD@NFDI will eine Brücke schlagen zwischen BWL und Data Science.
Wie sind Sie zum Thema Open Science gekommen?
BB: Mein Feld ist ja das Maschinelle Lernen. Dafür habe ich mich seit meiner Studienzeit interessiert und entschieden, dass ich mich darauf spezialisieren möchte. Für mich war eigentlich immer klar, dass man in dem Feld, in dem man arbeitet, auch vernünftig experimentell arbeiten muss. Open Science in meinem Fach ist vor allem das Arbeiten mit Daten und Code. Diese gilt es, auf vernünftige Art und Weise im Open Access zu veröffentlichen. Ich würde das Thema Open Science gern etwas weiter fassen. Man kann das Maschinelle Lernen durchaus als ein mathematisches Feld betrachten, aber man kann es eben auch als eine Wissenschaft betrachten, die man empirisch analysieren muss, wo Experimente auf dem Computer ablaufen. Eine andere Sache, die mir seit meiner Promotion Spaß macht, ist das Arbeiten mit dem Computer, also Werkzeuge herzustellen, Software zu schreiben, Software Engineering. Und während der Promotionszeit habe ich dann auch angefangen, in dem Projekt OpenML mitzumachen. Joaquin Vanschoren aus den Niederlanden, der das Projekt gestartet hat, hat mich angefragt, ob ich mitmachen möchte und das tue ich dort seit circa 2012.
Sie sind eins der Kernmitglieder der Plattform OpenML. Was ist OpenML?
BB: OpenML ist eine digitale Plattform, die Services im Bereich Machine Learning für Wissenschaftler:innen aller Disziplinen zur Verfügung stellt. OpenML steht sowohl Kern-Machine-Learning-Wissenschaftler:innen offen als auch Domänen-Wissenschaftler:innen. Die Plattform versucht, Kernobjekte vom Machine-Learning-Experimenten digital repräsentierbar und teilbar zu machen. Solche Kernobjekte sind zum Beispiel Datensätze, Algorithmen, experimentelle Studien und deren Ergebnisse. Für alle diese Objektklassen stellen wir prinzipiell Formate zur Verfügung. Sie sind alle digital und vor allem maschinenlesbar repräsentierbar. Das macht die Plattform leider auch sehr arbeitsintensiv und komplex. Es gibt schon seit langem Plattformen, die Datensätze anbieten. Es ist aber ein Problem, wenn alle Datensätze in anderen Formaten vorliegen und teilweise sogar undokumentiert sind. Wenn ich eine integrative Analyse fahren will, dann muss ich zunächst stundenlang Programmcodes schreiben, um die Datensätze in ein ähnliches Format zu bringen. OpenML standardisiert das. Wir wollen aber noch einen Schritt weitergehen. Wir wollen auch die experimentellen Protokolle und Ergebnisse auf dieser Plattform repräsentieren.
Was kann ich als Wissenschaftler:in mit OpenML machen?
BB: Das hängt von der Perspektive ab. Bin ich Machine Learner oder Domänen-Wissenschaftler:in? Wir haben die Plattform ursprünglich gebaut, weil uns die empirische Sichtweise auf das Maschinelle Lernen interessiert. Nicht immer entsprechen die empirischen Ergebnisse den theoretischen Ergebnissen, und deswegen brauchen wir Metaanalysen für maschinelles Lernen, um herauszufinden, welche Verfahren unter welchen Bedingungen besonders gut funktionieren. Die andere Sache ist: Wenn ich Dinge algorithmisch verbessern möchte, brauche ich ein Messinstrument. OpenML ist ein mögliches Messinstrument, um herauszufinden, ob ich wirklich empirisch einen praktisch relevanten Fortschritt durchgeführt habe. Für Domänen-Wissenschaftler:innen hingegen ist es vielleicht eher interessant, den Datensatz zu teilen und andere Leute anzuregen, eine bessere Lösung zu finden, weil sie vielleicht eher Anfänger:innen sind im Maschinellen Lernen. Wir können mittlerweile auch Analysen automatisieren – beispielsweise mit AutoML.
In den Wirtschaftswissenschaften, gerade in der BWL, spielen unstrukturierte Daten eine immer größere Rolle. Wie können Wirtschaftsforschende, die mit unstrukturierten Daten arbeiten, OpenML nutzen?
BB: Vor allem in dem NFDI-Konsortium BERD@NFDI versuchen wir, die Lücke zu schließen. Das heißt, Wirtschaftsforschende brauchen eine Grundausbildung in Data Science. Sie brauchen gewisse grundlegende Programmierkenntnisse, weil diese Analysen heutzutage i.d.R. in Python oder in R geschrieben werden. Aber typischerweise verfasst man das in kurzen Programmen, also Skripten. Ich muss also Code schreiben können und davon kommen wir so schnell auch nicht weg. Und über sowas funktioniert auch OpenML. Wir versuchen in BERD, es einfacher zu gestalten. Vor allem versuchen wir Anleitungen für bestimmte Use Cases zu schreiben. Ich glaube, aktuell müssen wir auf zwei Baustellen arbeiten. Wir müssen sowohl die Werkzeuge einfacher gestalten und spezialisierte Werkzeuge zum Beispiel für Wirtschaftswissenschaftler:innen bauen. Auf der anderen Seite müssen wir aber auch wirklich an der Ausbildung etwas ändern. Gerade in den Wirtschafts- und Sozialwissenschaften gibt es viele junge Wissenschaftler:innen, die sich in das Thema Maschinelles Lernen einarbeiten wollen. Für mich ist es auch ein spannender Lernprozess, mich in die Forschungsfragen der anderen Seite einzuarbeiten.
Wofür genau steht das Open in OpenML?
BB: Open steht genau dafür, wie in Open Science, das alles offen ist, zugreifbar. Auch die FAIR-Prinzipien hat man hinterlegt.
Gibt es auf der Plattform OpenML Lernmaterialien für Laien? Oder ist OpenML eher ein Werkzeug für Interessierte, die direkt in die Analyse einsteigen wollen?
BB: Es ist kein Ausbildungskurs, sondern ein Werkzeug, um das experimentelle Arbeiten zu erleichtern. Wenn ich aber zum Beispiel einen Kurs für Maschinelles Lernen irgendwo belege, kann OpenML das digitale Labor sein, wo ich experimentell arbeiten und experimentell mit Sachen herumspielen kann und dadurch spielerisch lerne. Und OpenML hilft einem beim Lernen, weil man Zugriff auf ganz viele Datensätze bekommt. Man kann dort auch sehen, welche Ergebnisse andere Menschen erzeugt haben; man kann auch einen Fortschritt sehen.
Joaquin Vanschoren und ich (und einige andere) habent die Plattform bereits in Kursen eingesetzt und die Studierenden, die in Gruppen gearbeitet haben, konnten sehen, was die anderen gemacht haben. Man bekommt bei OpenML vor allem einen Eindruck, was wirklich in der Praxis funktioniert. OpenML ist neben der Theorie ein sinnvolles Tool, wenn ich Machine Learning lernen will. Was lohnt sich wirklich? Das kann ich daran ganz gut ablesen.
Also ich habe zum Beispiel einen offenen Kurs zu Machine Learning auf GitHub, der ist offen einsehbar, mit Videos und Folien, und sogar den gesamten Material-Quellen. Wir haben sogar mal einen kleinen Artikel geschrieben, der unsere Philosophie zu solchen „Open Source Educational Resources“ darlegt.
Aktuell arbeiten wir für ein neues „Nebenfach KI“ noch eine andere neue Variante meines Kurses aus. Den bauen wir so um, dass der Kurs besonders visuell und besonders anwendungsnah wird. Den Kurs gestalten wir zum einen für Naturwissenschafter:innen. Zum anderen bauen wir noch eine zweite Variante für Geistes- und Sozialwissenschaftler:innen. Dort lassen wir besonders viel praktische Komponenten einfließen, so dass die Leute wirklich etwas selber machen mit Daten und Modellen und dadurch lernen. Es ist wirklich ein handwerklicher Skill, der gelernt werden muss. Bis man es kann, dauert es leider etwas.
Wie kann das Erlernen von Machine Learning die Open-Science-Bewegung voranbringen?
BB: Der Grund, warum längst noch nicht alle Wissenschaftler:innen ihre Forschungsergebnisse offen teilen, ist, dass es zu viel Aufwand ist. Was man aber begreifen muss, ist, dass diese Ressourcenkosten eine dynamische Größe sind, eine Funktion davon, wie gut ich ausgebildet bin und welche Werkzeuge ich kenne und ob ich den komplizierten Weg nehme oder den leichten. Selbst unsere eigenen Studierenden sind da teilweise nicht gut genug in den Werkzeugen ausgebildet. Heutzutage passiert viel auf GitHub, das ist wieder ein technisches System, das muss ich können. Wir fangen mittlerweile an, unseren Bachelorstudierenden die Funktionsweisen von GitHub beizubringen. Das haben wir vor zehn Jahren noch nicht gemacht an den meisten Universitäten, und es machen auch noch nicht immer alle. Es muss in der Ausbildung nachjustiert werden.
Wer mit dem Argument des Mehraufwandes kommt, zeigt, dass er die notwendigen Tools für Wissenschaft im digitalen Zeitalter nicht beherrscht?
BB: Das Problem ist, dass diese Ausbildungsprogramme auch jemand durchführen muss, der möglichst viel darüber weiß. Es gibt aber bisher keine Karrierepfade für entsprechend kundige Menschen. Man kann theoretisch viele Kurse durchführen, aber die finden dann wegen Personalmangel nicht statt. Was wir dringend brauchen, sind Karrierepfade für Menschen, die sich auf sowas spezialisiert haben. Stichwort: Research Software Engineering.. Die werden dann automatisch auch sehr gute Ausbildungskurse anbieten. Wir müssen die nächste Generation an der Basis ausbilden und wir müssen auch die nächste Generation von Spezialist:innen ausbilden. Ich sehe zu wenig Professuren, die für dieses Thema spezialisiert ausgeschrieben sind. An der LMU beginnen wir, das Thema Open Science in die Ausschreibungen mit aufzunehmen. Die Bewerber:innen werden gebeten, zu beschreiben, auf welche Weise sie Open Science bereits verfolgen und zu verfolgen planen. Aber das reicht nicht. Ich brauche auch eine von 20 Professuren, wo jemand das in gewisser Weise exklusiv gemacht hat. Ich bin auch sehr glücklich, dass wir an der LMU mittlerweile ein dediziertes Zentrum für Open Science haben, das OSC, welches mit unserem Munich Center for Machine Learning kooperiert und von diesem auch personell unterstützt wird.
Zum Thema NFDI und BERD: Wie stellen Sie sich eine gute Zusammenarbeit zwischen Machine Learnern und Betriebswirt:innen vor?
BB: Die eine Sache, die BERD leisten möchte, ist vor allem, domänenspezifische Anleitungen, Use Cases und Ausgangspunkte zu schaffen. Das ermöglicht Personen aus der Wirtschaftsforschung, hier möglichst eigenständig zu arbeiten. Das passiert zwar schon, aber wir wollen es für eine größere Menge Forschende noch einfacher machen. Ebenso wollen wir Standards schaffen, über die man sich dann austauschen kann. Denn Standards sind auch eine Möglichkeit, um Dinge vergleichbar zu machen. Und damit läuft man natürlich dann auch automatisch in die Kollaboration und Kommunikation hinein. Aber man kann natürlich Wirtschaftswissenschaftler:innen nicht zumuten, sich allein einzuarbeiten in das zum einen sehr komplexe und zum anderen sehr dynamische Feld ML. Sie haben ja auch zu Recht ihre eigenen Forschungsinteressen. Eine andere Möglichkeit wäre es, zu sagen, wir machen das als Data Scientists alles für Euch. Das geht natürlich auch nicht. Das Erfolgsrezept heißt also Zusammenarbeit und Beratung. An der LMU gibt es das StaBLab, das ist ein statistisches Beratungslabor und da begleiten wir unterschiedliche Projekte auf jeder Ebene – Hilfe bei der Promotion, Forschungsprojekte etc. Für wissenschaftliche Projekte wird das zu einem sehr günstigen Preis oder auch zum Nulltarif angeboten. Oft mündet diese Zusammenarbeit dann auch in einer gemeinsamen Publikation. Dadurch, dass wir das Munich Center for Machine Learning nach München gezogen haben, gibt es jetzt auch eine Machine-Learning-Consulting-Einheit. Und das ist aus meiner Sicht das, was man eigentlich machen muss, dass man kollaborativ zusammenarbeiten kann. Das größte Problem ist am Anfang meistens, dass beide Parteien unterschiedliche Sprachen sprechen und der schwierigste Schritt im Maschinelles Lernen ist typischerweise nicht, dass man diese ganzen komplizierten Formeln hinter den Modellen verstehen muss, sondern der Transfer- und Formalisierungsschritt. Und das kann man nur gemeinsam machen. Neben dem Formalisierungsschritt ist auch die Evaluation der Ergebnisse am Ende sehr wichtig. Da versuchen wir auch zu beraten, ob die richtigen Techniken verwendet wurden etc. Das würde natürlich noch besser funktionieren, wenn die Leute eine anständige Ausbildung bekommen. Da kann man direkt besser kommunizieren.
Welche Rolle spielen die neuen wissenschaftseigenen Infrastrukturen, um letztlich die Idee von Open Science stärker umzusetzen?
BB: Die wissenschaftseigenenInfrastrukturen spielen dafür eine ganz massive Rolle, weil sie das eigentlich alle zum Ziel haben. Das ist eine wichtige Initiative. Wir müssen lernen, über Domänen hinweg miteinander zu kommunizieren.
Im Wissenschaftsbetrieb gibt es für Infrastrukturen häufig auch kommerzielle Anbieter, die Services für den gesamten Forschungszyklus anbieten. Kann es gut funktionieren, wenn jetzt die Wissenschaft für sich selbst diese Infrastrukturen baut?
BB: In einer idealen Welt hätte ich am liebsten nichtkommerziell gesteuerte Werkzeuge und Initiativen. Wir wissen aber auch, warum das nicht so ganz leicht ist, weil wir meistens dann doch etwas weniger Geld in diese Initiative investieren können. Das Gewicht an Funding hinter den öffentlichen Werkzeugen ist oft ein anderes. Die kommerziellen Werkzeuge sind oft schon da, die werden sehr professionell betrieben und deswegen sind sie dann auch meistens etwas besser. Ich würde gar nicht die Unterscheidung in kommerzielle und öffentliche Infrastrukturen machen. Das Wichtige sind die Rahmenbedingungen. Wir als Öffentlichkeit und als Wissenschaftler:innen müssen an der Diskussion dieser Rahmenbedingungen teilnehmen. Wir müssen mitdiskutieren und die Rahmenbedingungen aussteuern und an einem gewissen Punkt muss man auch sagen, dass sich die Rahmenbedingungen nicht zu unserem Nachteil verändern sollten, wenn diese Plattformen dann wirklich fundamentale Infrastruktur für uns sind. Das heißt, man muss seinen Einfluss geltend machen und nicht komplett aufgeben. Was wir in BERD versuchen, ist eine Kombination aus Altbewährtem wie zum Beispiel GitHub und Neuem.
Was bedeutet für Sie Open Science?
BB: Mich interessiert an Open Science vor allem das vernünftige empirische Arbeiten. Open Science ist eine wichtige Teilkomponente von guter empirischer Arbeit. Denn Open Science stellt sicher, dass andere Menschen auf dem aufbauen können, was ich empirisch gemacht habe. Es hilft, das Ganze mit einer mathematischen Herangehensweise zu betrachten. Also wenn ich mir ein mathematisches Feld ansehe, dann kann ich zum Beispiel Theoreme in einem Papier veröffentlichen. Aber typischerweise packe ich auch den Beweis in das Papier, weil sonst niemand nachvollziehen kann, dass das richtig ist, was ich gemacht habe. Und andererseits veröffentliche ich auch meine empirischen Beobachtungen. Dazu gibt es einen wissenschaftlichen Werkzeugkasten, um das richtig durchzuführen. Der ist, meiner Meinung nach, bei uns im Feld weniger bekannt als er sein könnte, weil die meisten sich dann doch auf das Mathematische konzentrieren. Wir als Statistiker:innen, Machine Learner und Data Scientists stellen intellektuelle Werkzeuge zur Verfügung, damit andere Personen eine vernünftige empirische Analyse durchführen können. Wir wenden diese Werkzeuge aber weniger gut auf unser eigenes Feld an, was ich ein bisschen merkwürdig finde. Und darum geht es mir; ich möchte, dass wir das vernünftig machen. Und was ich jetzt brauche, ist eine vernünftige Ausbildung und ein Werkzeugkasten. Darüber hinaus brauche ich natürlich auch die ganzen Details dazu, damit jemand das nachvollziehen und kritisch reflektieren kann. Vielleicht stimmt ja auch jemand nicht mit dem überein, was ich gemacht habe und möchte das angreifen oder möchte darauf aufbauen und es verbessern. Damit die kritische Auseinandersetzung mit Forschung stattfinden kann, müssen die Informationen zur Verfügung stehen und die sind leider teilweise komplex. Manchmal passen sie auch nicht in ein Acht-Seiten-Paper hinein. Auf der anderen Seite haben wir heutzutage vernünftige digitale Werkzeuge. Wir müssen sie jetzt einfach nur nutzen und vor allem den Leuten beibringen, wie es geht.
Wie sehen Sie die Entwicklung von Open Science?
BB: Ich sehe relativ viele positive Sachen. Wenn wir vor allem in Richtung Informatik oder Maschinelles Lernen schauen, sehe ich da relativ viele positive Aspekte, weil die ganze Wissenschaft relativ jung ist. Dadurch ist es relativ beweglich, es wird oft auch von vielen etwas jüngeren Menschen getrieben und dadurch verändern sich Dinge dort auch etwas schneller. Viele wichtige Journale und Konferenzen setzen mittlerweile darauf und entweder ist das eine Art Zugangsvoraussetzung, um dort reinzukommen, es ist ein Teil der Bewertung oder es gibt halt Incentives dafür; Awards oder ähnliches. Das sehe ich sehr positiv. Zu langsam empfinde ich aktuell noch den Ausbildungs- und Rekrutierungsbereich, bei dem wir noch etwas mehr Feuerholz nachlegen müssen. Aber im Moment sehe ich tatsächlich viele positive Sachen nach einer langen Durststrecke.
Vielen Dank!
Das Interview wurde geführt von Dr. Doreen Siegfried.
Das Interview wurde geführt am 03.03.2022.
Über Prof. Dr. Bernd Bischl
Prof. Dr. Bernd Bischl ist Inhaber des Lehrstuhls für Statististical Learning and Data Science am Institut für Statistik der Ludwig-Maximilians-Universität München und Co-Direktor des Munich Center for Machine Learning (MCML), eines der nationalen Kompetenzzentren für Machine Learning in Deutschland.
Er studierte Informatik, Künstliche Intelligenz und Datenwissenschaften in Hamburg, Edinburgh und Dortmund und promovierte 2013 an der Technischen Universität Dortmund. Er ein aktiver Entwickler mehrerer R-Pakete, leitet die mlr (Machine Learning in R) Engineering Group und ist Mitbegründer der Wissenschaftsplattform OpenML für offenes und reproduzierbares Machine Learning.
Prof. Dr. Bernd Bischl ist Co-Sprecher des NFDI-Konsortiums BERD@NFDI.
Kontakt: https://www.slds.stat.uni-muenchen.de/
ORCID-ID: https://orcid.org/0000-0001-6002-6980
Twitter: https://twitter.com/bbischl
GitHub: https://github.com/berndbischl
ResearchGate: https://www.researchgate.net/profile/Bernd-Bischl