Data Science verstehen – Revolutionäres Potential aus vier Megatrends!

 Wir befinden uns an der Schwelle zu einem neuen Zeitalter, weil verschiedene Strömungen zusammenkommen und damit ein einzigartiges Umfeld schaffen. Vieles (manche würden sagen: alles) wird digital. Damit ist auch das Interesse an den Themen Datenanalyse und -exploration – also Data Science – enorm gestiegen. Data Science ist der Konvergenzpunkt von vier Megatrends, die die letzten Jahren dominiert haben und auch die kommenden dominieren werden: Cloud Computing, IoT, Big Data und algorithmische Analyse.

Was sind die Gründe für das Zusammenkommen verschiedener Strömungen und damit eines neuen, einzigartigen Umfeldes?

  1. Zum ersten Mal in der Geschichte der Künstliche Intelligenz, die in den 1950er Jahren als Disziplin begonnen hat, steht die notwendige Rechenleistung zu niedrigen Kosten zur Verfügung, um praktische Probleme mit den schon länger verfügbaren Algorithmen zu lösen.
  2. Die Algorithmen für das Machine Learning sind deutlich verbessert worden und können nun mit vertretbarem Aufwand für praktische Probleme eingesetzt werden.
  3. Die Popularität von Data Science trägt dazu bei, seine Methoden aus den akademischen Zirkeln in die Breite zu tragen, so dass eine große experimentierfreudige Community eine rapide Weiterentwicklung fördert.
  4. Heutzutage gibt es vor allem durch das Internet, die sozialen Netzwerke und die großen Einkaufsplattformen einen Datenschatz in nie gekannter Größenordnung, der auf seine Auswertung wartet.
  5. Das Internet der Dinge wird für weitere Datenströme sorgen, die zu neuen Geschäftsmodellen führen, die mit Hilfe von Data Science erschlossen werden.

Diese Faktoren haben dazu beigetragen, Data Science als eigene wissenschaftliche Fachdisziplin und Ergänzung zur klassischen Statistik zu etablieren. Data Scientist mit ihren Fähigkeiten im Bereich Programmierung, Statistik und neuerer Algorithmik bringen die erforderliche Expertise mit, um die heutigen Möglichkeiten der Datenanalyse gewinnbringend zu nutzen. Die verschiedenen Data Science Techniken lassen sich nach algorithmischen Verfahren oder nach dem Einsatzzweck grob so kategorisieren:

  • Regression
  • Klassifikation
  • Anomalienerkennung
  • Clustering
  • Reinforcement Learning

Auf der einen Seite der bestehenden Software-Landschaft gibt es bereits sehr spezifische Lösungen für gut umrissene Probleme, zum Beispiel im Einzelhandel oder in der Finanzindustrie. Am anderen Ende des Spektrums stehen die Anbieter von Software-Paketen, die ein abgestimmtes Toolset für den Spezialisten im Bereich Data Science zur Verfügung stellen.

Die meisten Lösungen basieren dabei auf Open Source Software. Im Bereich Toolsets dominieren vor allem zwei Sprachen den Markt: R and Python. Python hat sich zur Standardsprache für Data Scientists entwickelt, vor allem im Bereich Machine Learning.

Die gewaltigen Investitionen und die anziehenden Umsätze von großen Commodity-Plattformen wie Amazon, Microsoft und Google zeigen: Die Megatrends Cloud Computing, IoT, Big Data und algorithmische Analyse bestimmen bereits heute oder in naher zukunft die Geschäftsprozesse, und dass bis in die letzten Winkel. Für Unternehmen, die dieses Thema näher interessiert, hat CONTACT ein neues Data Science White Paper herausgebracht. Dies kann hier heruntergeladen werden.

Hintertürchen zur Collaboration

Engineering Collaboration, die Zusammenarbeit von Unternehmen bei der Produktentwicklung, ist eigentlich nichts Neues. Es gibt das Thema schon solange wie es das Outsourcing gibt. Umso verwunderlicher ist, dass die wesentliche Herausforderung bei der Collaboration immer noch einer Lösung harrt: Die Einbettung der unternehmensübergreifenden Austausch- und Abstimmungsprozesse in die PDM/PLM-Lösungen, mit denen die Produktentwicklung in den Unternehmen gesteuert wird.

An fehlenden Tools liegt es wahrlich nicht – im Gegenteil: die Landschaft der Collaboration-Anwendungen ist dank Cloud und Social Media eher noch bunter geworden. Das eigentliche Problem ist die Integration dieser Tools in die IT-Infrastrukturen und Geschäftsprozesse des jeweiligen Unternehmens. Aus Sicherheitsgründen scheuen

PLM_portal
Mit freundlicher Genehmigung Gualberto107 / FreeDigitalPhotos.net

 die IT-Spezialisten davor zurück, ihre Enterprise Anwendungen nach außen zu öffnen. Das führt oft zu der absurden Situation, dass Daten und Know-how im Unternehmen bombensicher sind, dann aber schnell mal per Email ausgetauscht werden, weil die Ingenieure ja irgendwie ihre Entwicklungsarbeit erledigen müssen. Und die verteilt sich heute nun mal über eine immer längere Supply Chain. Selbst in der sicherheitsbewussten Automobilindustrie tauschen 45 Prozent der Unternehmen ihre Produktdaten mit Auftraggebern und Zulieferern noch vorwiegend per Email aus. Da reiben sich neugierige Nachrichtendienste und andere Datenpiraten freudig die Hände.

In Anbetracht der Tatsache, dass die Collaboration weiter zunimmt und immer globalere Züge annimmt, ist es vielleicht an der Zeit, mal über eine Neugewichtung nachzudenken. Das heißt mit anderen Worten: auf das letzte Quäntchen an innerer Sicherheit zu verzichten, indem man die PLM-Lösung gezielt für den Zugriff von außen öffnet, um dadurch Datensicherheit und Know-how-Schutz bei der Zusammenarbeit mit externen Partnern zu steigern. Insgesamt würde sich die Sicherheitsbilanz bei der verteilten Produktentwicklung dadurch spürbar verbessern. Man muss ja nicht gleich ein großes Portal aufreißen – mit einem Hintertürchen wäre den Projektverantwortlichen manchmal schon gedient.

Eine wesentliche Anforderung an eine solche Collaboration-Lösung ist, dass sie sowohl für die Auftraggeber, als auch für ihre Zulieferer von Nutzen ist. Allzu oft wurden in der Vergangenheit gerade im Automotive-Umfeld Lösungen implementiert, die die Last der Datenkommunikation einseitig den Partnern aufbürdete. Sie mussten für jeden Auftraggeber eine andere Anwendung implementieren und betreiben – oft ohne Integration in ihre Backend-Systeme. Die Daten wurden weitgehend von Hand in die Auftraggeber-Systeme eingepflegt.

Ganz wichtig ist natürlich auch, dass die Lösung unterschiedliche Szenarien der Zusammenarbeit unterstützt. Die Anforderungen bei einem Standardprozess wie zum Beispiel der Angebotseinholung (Request for Quotation) sind andere als bei einem gemeinsamen Entwicklungsprojekt, bei dem die Partner ihre Dateien idealerweise in eine gemeinsame Projektablage einstellen und dadurch die Arbeitsfortschritte online verfolgen. Asynchrone Workflows bieten die Möglichkeit, den Umfang an bereit gestellten Daten und PLM-Funktionen gezielt auf die Empfänger zuzuschneiden. Sie sind gewissermaßen das Hintertürchen der Collaboration, das man dann schrittweise zu einem Portal für die synchrone Zusammenarbeit bei Entwicklungsprojekten ausbauen kann.