Data Science verstehen – Revolutionäres Potential aus vier Megatrends!

Wir befinden uns an der Schwelle zu einem neuen Zeitalter, weil verschiedene Strömungen zusammenkommen und damit ein einzigartiges Umfeld schaffen. Vieles (manche würden sagen: alles) wird digital. Damit ist auch das Interesse an den Themen Datenanalyse und -exploration – also Data Science – enorm gestiegen. Data Science ist der Konvergenzpunkt von vier Megatrends, die die letzten Jahren dominiert haben und auch die kommenden dominieren werden: Cloud Computing, IoT, Big Data und algorithmische Analyse.

Was sind die Gründe für das Zusammenkommen verschiedener Strömungen und damit eines neuen, einzigartigen Umfeldes?

  1. Zum ersten Mal in der Geschichte der Künstliche Intelligenz, die in den 1950er Jahren als Disziplin begonnen hat, steht die notwendige Rechenleistung zu niedrigen Kosten zur Verfügung, um praktische Probleme mit den schon länger verfügbaren Algorithmen zu lösen.
  2. Die Algorithmen für das Machine Learning sind deutlich verbessert worden und können nun mit vertretbarem Aufwand für praktische Probleme eingesetzt werden.
  3. Die Popularität von Data Science trägt dazu bei, seine Methoden aus den akademischen Zirkeln in die Breite zu tragen, so dass eine große experimentierfreudige Community eine rapide Weiterentwicklung fördert.
  4. Heutzutage gibt es vor allem durch das Internet, die sozialen Netzwerke und die großen Einkaufsplattformen einen Datenschatz in nie gekannter Größenordnung, der auf seine Auswertung wartet.
  5. Das Internet der Dinge wird für weitere Datenströme sorgen, die zu neuen Geschäftsmodellen führen, die mit Hilfe von Data Science erschlossen werden.

Diese Faktoren haben dazu beigetragen, Data Science als eigene wissenschaftliche Fachdisziplin und Ergänzung zur klassischen Statistik zu etablieren. Data Scientist mit ihren Fähigkeiten im Bereich Programmierung, Statistik und neuerer Algorithmik bringen die erforderliche Expertise mit, um die heutigen Möglichkeiten der Datenanalyse gewinnbringend zu nutzen. Die verschiedenen Data Science Techniken lassen sich nach algorithmischen Verfahren oder nach dem Einsatzzweck grob so kategorisieren:

  • Regression
  • Klassifikation
  • Anomalienerkennung
  • Clustering
  • Reinforcement Learning

Auf der einen Seite der bestehenden Software-Landschaft gibt es bereits sehr spezifische Lösungen für gut umrissene Probleme, zum Beispiel im Einzelhandel oder in der Finanzindustrie. Am anderen Ende des Spektrums stehen die Anbieter von Software-Paketen, die ein abgestimmtes Toolset für den Spezialisten im Bereich Data Science zur Verfügung stellen.

Die meisten Lösungen basieren dabei auf Open Source Software. Im Bereich Toolsets dominieren vor allem zwei Sprachen den Markt: R and Python. Python hat sich zur Standardsprache für Data Scientists entwickelt, vor allem im Bereich Machine Learning.

Die gewaltigen Investitionen und die anziehenden Umsätze von großen Commodity-Plattformen wie Amazon, Microsoft und Google zeigen: Die Megatrends Cloud Computing, IoT, Big Data und algorithmische Analyse bestimmen bereits heute oder in naher zukunft die Geschäftsprozesse, und dass bis in die letzten Winkel. Für Unternehmen, die dieses Thema näher interessiert, hat CONTACT ein neues Data Science White Paper herausgebracht. Dies kann hier heruntergeladen werden.

 

Datei- oder datenbankorientiert – ist das die Frage?

Auf dem diesjährigen ProSTEP iViP-Symposium hatte ich das Plaisir, einen ziemlich erbosten Dominique Florack zu interviewen. “Wenn die europäischen Unternehmen nicht endlich verstehen, dass die Zukunft der PLM-Technologie im datenbankorientierten Arbeiten liegt, setzen sie ihre internationale Wettbewerbsfähigkeit aufs Spiel”, meinte der Mann, der als Senior Vice President Research & Development bei Dassault Systèmes maßgeblich für die Entwicklung der 3DExperience-Plattform verantwortlich ist. ERP- oder CRM-Systeme arbeiteten schließlich auch datenbankgestützt.

Foto_database
Mit freundlicher Genehmigung Danilo Rizzuti, FreeDigitalPhotos.net

Obwohl ich Florack prinzipiell durchaus zustimmen würde, muss ich zu bedenken geben, dass die Frage des datei- oder datenbankorientierten Arbeitens in erster Linie eine Frage der Autorensysteme ist. Solange CAD-Systeme die Arbeitsergebnisse als Files ablegen, bleibt den PDM/PLM-Lösungen nichts viel anderes übrig, als sie dateibasiert zu verwalten. Aber genau da liegt der Hase im Pfeffer: Was Florack den bockigen Kunden (und uns Journalisten) mit der Cloud im Hinterkopf eigentlich sagen will ist, dass die Zukunft der CAD-Technologie im datenbankorientierten Arbeiten liegt. Um CAD in der Cloud betreiben zu können, brauche man eine andere Software-Architektur.

Auch dagegen wäre prinzipiell nichts einzuwenden, wenn es einen allgemein akzeptierten Standard dafür gäbe, wie der Content einer CAD-Konstruktion datenbankgestützt zu verwalten ist. Oder wenn die CAD-Hersteller ihre Verwaltungsstrukturen offen legen würden. Dann wäre der Kunde nicht gezwungen, ein bestimmtes Datenmanagementsystem (nämlich das seines CAD-Lieferanten) einzusetzen, um aus einzelnen Elementen wieder ein digitales Produktmodell aufzubauen, und er könnte sie auch datenbankgestützt austauschen. Denn es macht keinen Sinn, bei verteilten Entwicklungsprojekten erst datenbankorientiert zu konstruieren, um die Konstruktionen den Partnern in der Zulieferkette dann doch wieder dateibasiert zur Verfügung zu stellen. Dann wären wir wieder in den Anfangszeiten der 3D-Konstruktion, als die Modelle immer wieder platt geklopft wurden, um sie mit den Zulieferern zeichnungsbasiert austauschen zu können.

Ehrlich gesagt, bin ich skeptisch, dass wir einen solchen Standard und/oder das nötige Maß an Offenheit je sehen werden. Zwar haben inzwischen alle namhaften PLM-Hersteller den berühmten Codex of PLM Openness unterzeichnet, der in den letzten Jahren maßgeblich vom ProSTEP iViP-Verein vorangetrieben wurde, doch bezeichnenderweise wurde der CPO auf dem diesjährigen Symposium nicht mit einem Wort erwähnt. Oder wenn, dann so leise, dass ich es nicht vernommen habe. Man hätte gerne gewusst, welche Fortschritte Anwender und Anbieter bei der Umsetzung in den letzten 12 Monaten gemacht haben. Ist die PLM-Welt dadurch ein bisschen offener geworden?

Was das Thema Standardisierung anbelangt, erwähnte Florack STEP AP 242 als mögliche Referenz für die datenbankorientierte Engineering Collaboration; man müsse den Standard nur endlich richtig implementieren, statt ihn auf seine Funktionen für den (dateibasierten) Geometriedatenaustausch zu reduzieren. Das mag wohl sein, aber mir wäre nicht bekannt, dass Dassault ihren Kunden inzwischen die Möglichkeit bietet, CATIA V6-Daten STEP AP242-konform mit einem anderen PDM-System als ENOVIA V6 zu verwalten. Aber was nicht ist, kann ja noch werden, wenn die ISO-Normierung des neuen STEP-Standards erst einmal abgeschlossen ist.

Letztlich geht es aber nicht um die Frage, ob man PLM datei- oder datenbankorientiert betreibt, sondern darum, wie zugänglich die Informationen in der Datenbank sind – für den Erzeuger, dessen geistiges Eigentum sie sind, für seine Partner, die mit den Daten weiter arbeiten sollen, für künftige Anwender, die vielleicht auch noch in 50 Jahren noch darauf zugreifen müssen, und letztlich auch für andere PLM-Hersteller, die diese Daten eventuell in ihre IT-Lösungen migrieren sollen. Solange diese Offenheit nicht gegeben ist, werden die Unternehmen dem datenbankorientierten PLM-Ansatz misstrauen.