Sind Data Science Plattformen eine gute Idee?

Frei nach Karl Valentin gilt: Plattformen sind schön und schaffen einem jede Menge Arbeit vom Hals. Da kommt die Idee von Plattformen für die automatische Datenanalyse gerade recht. Passend dazu hat Gartner nun einen „Magic Quadrant for Data Science and Machine Learning Platforms“ veröffentlicht. Das Dokument selbst ist nur hinter einer Paywall einsehbar, aber im Netz bieten einige der im Report erwähnten Unternehmen den Zugriff auf das Dokument gegen Angabe der eigenen Adresse an.

Besonders hebt Gartner hervor, dass so eine Plattform alles was man braucht, aus einem Guss bereitstellen sollte; im Unterschied also zu diversen einzelnen Bausteinen, die nicht unmittelbar aufeinander abgestimmt sind.

Hört sich gut an! Allerdings: Data Science ist kein Bereich, in dem man mit einem Tool oder selbst  einer Plattform wie von Zauberhand weiterkommt. Die Entwicklung von Lösungen – etwa für Predictive Maintenance der Maschinen, die ein Unternehmen anbietet – durchläuft verschiedene Phasen, wobei Cleansing/Wrangling und Preprocessing den größten Teil der Arbeit ausmachen. In diesem Bereich sind ETL(Extract, Transform, Load )- und Visualisierungstools wie Tableau einzuordnen. Und jenseits der gedachten Komfortzone von Plattformen, die sich Manager so vorstellen, sind Datenbankabfragen und Skripte für die Transformation und Aggregation etwa in Python oder R schlicht das Mittel der Wahl. Ein Blick auf Data Science Online-Tutorials der top-Anbieter wie Coursera unterstreicht die Bedeutung dieser – nun ja – bodenständigen Werkzeuge. „Statistical analysis, Python programming with NumPy, pandas, matplotlib, and Seaborn, Advanced statistical analysis, Tableau, Machine Learning with stats models and scikit-learn, Deep learning with TensorFlow“ lautet ein Kursprogramm von Udemy.

Hinzu kommt: Oft bleiben die Projekte in diesem Vorfeld stecken oder werden abgebrochen. Das hat viele Gründe:

  • man findet keinen analytischen/statistischen Ansatz
  • die ursprüngliche Idee erweist sich als nicht durchführbar
  • die Daten sind nicht in der Menge oder Qualität, die man braucht, vorhanden
  • einfache Analysen und Visualisierungen reichen schon aus und alles weiter wäre „oversized“

Das ist nicht schlimm, bedeutet es doch nur, dass der automatisierte Einsatz von Machine Learning und KI nicht aus jedem Datensatz gleich einen Datenschatz macht. Zeichnet sich allerdings der produktive Nutzen ab, gilt es, sich für die Production-Pipeline und Zeit- oder Ressourcen-Constraints  zu rüsten. Meist fängt man dafür neu an und bildet alles nochmals z.B. in Tensorflow für Neuronale Netzwerke oder in Custom-Libraries ab.

Das Missverständnis ist, dass man a) ansatzlos Data Science bis zum produktiven Einsatz treiben kann und b) einen one-stop-shop for Data Science (hier „Plattform“) sucht, der alles in einem Aufwasch macht. Das wird es nie geben.

Das ist tatsächlich auch eine gute Nachricht, bedeutet es doch, dass Organisationen – ohne gleich zu großen Plattformen greifen zu müssen – ihre ersten Ziele erreichen können. Die einigermaßen sorgfältige Auswahl passender Werkzeuge (viele davon Open Source) hilft dabei.

Auch interessant:
In meinem Video “KI braucht Strategie” erläutere ich, welche Schritte Unternehmen konkret gehen können, um KI-Technologie zielführend einzusetzen.

Die digitale Transformation transformiert auch PLM

Die Unternehmen der Automobilindustrie beschäftigen sich intensiv mit der digitalen Transformation, und dabei geht es nicht mehr nur um Industrie 4.0 und die intelligente Vernetzung der Fertigung, sondern um die Umgestaltung der Unternehmensprozesse und Geschäftsmodelle. Wie intensiv, das wurde auf dem diesjährigen ProSTEP iViP-Symposium in Stuttgart deutlich, an den über 660 Besucher aus 19 Ländern teilnahmen. Ein neuer Rekord, und sicher nicht der letzte. Viele Vorträge spiegelten die Sorge wider, dass disruptive Technologien wie das Internet of Things (IoT) zur Verdrängung der alten Platzhirsche durch neue Herausforderer führen könnten. Der Erfolg von Tesla hat die Branche aufgeschreckt und der Name Nokia steht wie ein Menetekel an der Wand. „Die digitale Transformation transformiert auch PLM“ weiterlesen

Vernetzung bedeutet Autonomieverlust

Digital Twin oder digitaler Zwilling ist das jüngste Ferkelchen, das die PLM-Hersteller durchs Dorf treiben. Wer den Begriff erfunden hat, weiß ich nicht, aber sicher nicht Bundespräsident Joachim Gauck, der ihn im Jahr 2013 in seiner vielgeachteten Rede zum Tag der Deutschen Einheit erwähnte. Er spielte damit auf die Abbildung unseres realen Ichs in den sozialen Netzwerken an und warnte vor den Gefahren, die daraus für unser Privatsphäre erwachsen können. „Vernetzung bedeutet Autonomieverlust“ weiterlesen