Data Mining

Wir befinden uns an der Schwelle zu einem neuen Zeitalter, weil verschiedene Strömungen zusammenkommen und damit ein einzigartiges Umfeld schaffen. Vieles (manche würden sagen: alles) wird digital. Damit ist auch das Interesse an den Themen Datenanalyse und -exploration – also Data Science – enorm gestiegen. Data Science ist der Konvergenzpunkt von vier Megatrends, die die letzten Jahren dominiert haben und auch die kommenden dominieren werden: Cloud Computing, IoT, Big Data und algorithmische Analyse.

Was sind die Gründe für das Zusammenkommen verschiedener Strömungen und damit eines neuen, einzigartigen Umfeldes?

Zum ersten Mal in der Geschichte der Künstliche Intelligenz, die in den 1950er Jahren als Disziplin begonnen hat, steht die notwendige Rechenleistung zu niedrigen Kosten zur Verfügung, um praktische Probleme mit den schon länger verfügbaren Algorithmen zu lösen.
Die Algorithmen für das Machine Learning sind deutlich verbessert worden und können nun mit vertretbarem Aufwand für praktische Probleme eingesetzt werden.
Die Popularität von Data Science trägt dazu bei, seine Methoden aus den akademischen Zirkeln in die Breite zu tragen, so dass eine große experimentierfreudige Community eine rapide Weiterentwicklung fördert.
Heutzutage gibt es vor allem durch das Internet, die sozialen Netzwerke und die großen Einkaufsplattformen einen Datenschatz in nie gekannter Größenordnung, der auf seine Auswertung wartet.
Das Internet der Dinge wird für weitere Datenströme sorgen, die zu neuen Geschäftsmodellen führen, die mit Hilfe von Data Science erschlossen werden.

Diese Faktoren haben dazu beigetragen, Data Science als eigene wissenschaftliche Fachdisziplin und Ergänzung zur klassischen Statistik zu etablieren. Data Scientist mit ihren Fähigkeiten im Bereich Programmierung, Statistik und neuerer Algorithmik bringen die erforderliche Expertise mit, um die heutigen Möglichkeiten der Datenanalyse gewinnbringend zu nutzen. Die verschiedenen Data Science Techniken lassen sich nach algorithmischen Verfahren oder nach dem Einsatzzweck grob so kategorisieren:

Regression
Klassifikation
Anomalienerkennung
Clustering
Reinforcement Learning

Auf der einen Seite der bestehenden Software-Landschaft gibt es bereits sehr spezifische Lösungen für gut umrissene Probleme, zum Beispiel im Einzelhandel oder in der Finanzindustrie. Am anderen Ende des Spektrums stehen die Anbieter von Software-Paketen, die ein abgestimmtes Toolset für den Spezialisten im Bereich Data Science zur Verfügung stellen.

Die meisten Lösungen basieren dabei auf Open Source Software. Im Bereich Toolsets dominieren vor allem zwei Sprachen den Markt: R and Python. Python hat sich zur Standardsprache für Data Scientists entwickelt, vor allem im Bereich Machine Learning.

Die gewaltigen Investitionen und die anziehenden Umsätze von großen Commodity-Plattformen wie Amazon, Microsoft und Google zeigen: Die Megatrends Cloud Computing, IoT, Big Data und algorithmische Analyse bestimmen bereits heute oder in naher zukunft die Geschäftsprozesse, und dass bis in die letzten Winkel. Für Unternehmen, die dieses Thema näher interessiert, hat CONTACT ein neues Data Science White Paper herausgebracht. Dies kann hier heruntergeladen werden.

Viele Menschen nehmen fälschlicherweise an, im Internet sei alles gratis. Richtig ist, dass bezahlte Inhalte rar sind, weil kaum jemand bereit ist, für Informationen aus der Cloud zu zahlen. Stattdessen zahlen wir lieber mit Informationen über unsere Person, unsere Vorlieben und Interessen, unser Kaufverhalten etc, die wir bereitwillig auf Facebook & Co. posten, oft ohne uns bewusst zu sein, wie teuer uns das möglicherweise irgendwann mal zu stehen kommt. Dass die Suchbegriffe, die wir in Google eingeben, systematisch für Werbezwecke ausgewertet werden, ist nur die Spitze des Eisberges dessen, was mit “unseren” Daten so alles getrieben wird. In Ermangelung international einheitlicher Datenschutzbestimmungen ist der einzige Schutz, der uns bleibt, die schiere Menge an entstehenden Daten.

Die Sozialen Netze leisten einen maßgeblichen Beitrag dazu, dass sich die Datenmenge seit dem Urknall des Internets mit der Geschwindigkeit des Universums ausbreitet. Das meiste davon ist Abraum, aber die Unternehmen haben den gigantischen Datenberg als Goldmine entdeckt. Big Data – die Auswertung von Unmengen an unstrukturierten Daten, um ein paar Goldkörnchen Information zu entdecken – ist eine der großen Herausforderungen für die IT-Organisation, wie Dr. Ralf Brunken, stellvertretender IT-Leiter des Vokswagen-Konzerns, neulich auf dem ProSTEP iViP-Symposium in Hannover sagt. Interessanterweise nannte er dabei Big Data in einem Atemzug mit Social Media. Mit Hilfe von Social Analytics-Verfahren will der Automobilbauer seine Kunden besser verstehen und mehr über ihre Wünsche in Erfahrung bringen.

Aus Sicherheitsgründen findet die Auswertung der Daten aus den Sozialen Netzen vor den Feuerschutztüren des Firmennetzes statt. Die firmeninterne Nutzung von Social Media-Plattformen mit dem Ziel, die Mitarbeiter über bestimmte Themen zu vernetzen, spielt bei Volkswagen noch eine untergeordnete Rolle. Dennoch stellt sich damit über kurz oder lang die Frage, was mit der wachsenden Menge an unstrukturierten Daten im Unternehmen geschehen soll, die Firmeninternas, schützenswertes Know-how und möglicherweise sogar Informationen enthalten können, die aus produkthaftungsrechtlichen Gründen aufbewahrt werden müssen. Prof. Rainer Stark vom Fraunhofer IPK Berlin brachte es auf dem Symposium in einem etwas anderen Zusammenhang auf den Punkt: Die PDM/PLM-Lösungen der Zukunft werden auch unstrukturierte Daten managen (müssen).

Eine andere Frage ist, wie die Anwender in den Unternehmen mit der Informationsflut und vor allem mit der wachsenden Zahl an Kommunikationskanälen umgehen. Die heranwachsende Generation der Digital Natives ist sicher mehrkanalfähig – meine neunjährige Tochter schaffte es neulich, gleichzeitig mit (meinem) iPad, Notebook und PSP herumzuspielen und nebenbei noch die Simpsons im Fernsehen zu verfolgen. Wir älteren Semester sind mit den vielen Kanälen leicht überfordert. Neulich suchte ich verzweifelt in meinen Emails, dann in den Facebook-, LinkedIn-, SMS- und WhatsApp-Benachrichtigungen nach einer Adresse, von der ich sicher wusste, dass ich sie erhalten hatte. Ich fand sie schließlich in den aufgezeichneten Chats in Sykpe.

Je mehr Kommunikationskanäle wir nutzen, desto länger suchen wir nach Informationen und desto größer die Gefahr, wichtige Informationen zu übersehen. Natürlich ist es möglich, die Informationen visuell in einem Dashboard oder Cockpit zusammenzuführen; dafür gibt es heute schon Lösungen. Die eigentliche Herausforderung besteht jedoch darin, mit Hilfe intelligenter Algorithmen Zusammenhänge zwischen zusammen gehörigen Informationen aufzuspüren, ohne die Strukturen explizit herstellen zu müssen. Da sind auch die PLM-Hersteller gefordert, wenn sie künftig großen Mengen an unstrukturierte Daten mit ihren Informationsmodellen verknüpfen wollen.

Schlagwort: Data Mining

Data Science verstehen – Revolutionäres Potential aus vier Megatrends!