Sind Data Science Plattformen eine gute Idee?

Frei nach Karl Valentin gilt: Plattformen sind schön und schaffen einem jede Menge Arbeit vom Hals. Da kommt die Idee von Plattformen für die automatische Datenanalyse gerade recht. Passend dazu hat Gartner nun einen „Magic Quadrant for Data Science and Machine Learning Platforms“ veröffentlicht. Das Dokument selbst ist nur hinter einer Paywall einsehbar, aber im Netz bieten einige der im Report erwähnten Unternehmen den Zugriff auf das Dokument gegen Angabe der eigenen Adresse an.

Besonders hebt Gartner hervor, dass so eine Plattform alles was man braucht, aus einem Guss bereitstellen sollte; im Unterschied also zu diversen einzelnen Bausteinen, die nicht unmittelbar aufeinander abgestimmt sind.

Hört sich gut an! Allerdings: Data Science ist kein Bereich, in dem man mit einem Tool oder selbst  einer Plattform wie von Zauberhand weiterkommt. Die Entwicklung von Lösungen – etwa für Predictive Maintenance der Maschinen, die ein Unternehmen anbietet – durchläuft verschiedene Phasen, wobei Cleansing/Wrangling und Preprocessing den größten Teil der Arbeit ausmachen. In diesem Bereich sind ETL(Extract, Transform, Load )- und Visualisierungstools wie Tableau einzuordnen. Und jenseits der gedachten Komfortzone von Plattformen, die sich Manager so vorstellen, sind Datenbankabfragen und Skripte für die Transformation und Aggregation etwa in Python oder R schlicht das Mittel der Wahl. Ein Blick auf Data Science Online-Tutorials der top-Anbieter wie Coursera unterstreicht die Bedeutung dieser – nun ja – bodenständigen Werkzeuge. „Statistical analysis, Python programming with NumPy, pandas, matplotlib, and Seaborn, Advanced statistical analysis, Tableau, Machine Learning with stats models and scikit-learn, Deep learning with TensorFlow“ lautet ein Kursprogramm von Udemy.

Hinzu kommt: Oft bleiben die Projekte in diesem Vorfeld stecken oder werden abgebrochen. Das hat viele Gründe:

  • man findet keinen analytischen/statistischen Ansatz
  • die ursprüngliche Idee erweist sich als nicht durchführbar
  • die Daten sind nicht in der Menge oder Qualität, die man braucht, vorhanden
  • einfache Analysen und Visualisierungen reichen schon aus und alles weiter wäre „oversized“

Das ist nicht schlimm, bedeutet es doch nur, dass der automatisierte Einsatz von Machine Learning und KI nicht aus jedem Datensatz gleich einen Datenschatz macht. Zeichnet sich allerdings der produktive Nutzen ab, gilt es, sich für die Production-Pipeline und Zeit- oder Ressourcen-Constraints  zu rüsten. Meist fängt man dafür neu an und bildet alles nochmals z.B. in Tensorflow für Neuronale Netzwerke oder in Custom-Libraries ab.

Das Missverständnis ist, dass man a) ansatzlos Data Science bis zum produktiven Einsatz treiben kann und b) einen one-stop-shop for Data Science (hier „Plattform“) sucht, der alles in einem Aufwasch macht. Das wird es nie geben.

Das ist tatsächlich auch eine gute Nachricht, bedeutet es doch, dass Organisationen – ohne gleich zu großen Plattformen greifen zu müssen – ihre ersten Ziele erreichen können. Die einigermaßen sorgfältige Auswahl passender Werkzeuge (viele davon Open Source) hilft dabei.

Auch interessant:
In meinem Video „KI braucht Strategie“ erläutere ich, welche Schritte Unternehmen konkret gehen können, um KI-Technologie zielführend einzusetzen.