Geeignete Infrastruktur und Werkzeuge für Data Science

Foto: Unsplash/ Franki Chamaki

Den Wunsch, aus Daten Mehrwert zu generieren, hegen Entscheider in Unternehmen aller Größen und in nahezu allen Branchen. Die zur Verfügung stehenden Methoden zur Auswertung von Daten werden in der Regel unter dem Begriff Data Science zusammengefasst. Vor allem für kleine und mittlere Unternehmen (KMU) gilt es bei der Umsetzung von Data-Science-Projekten einiges zu beachten.

Damit Data Science ihr volles Potenzial entfalten kann, braucht es nicht nur den Willen sich auf diesem Gebiet zu engagieren, geeignete Anwendungsfälle und dazu passende Daten, sondern auch die richtige Kombination aus Technologien, Fachkenntnissen und Erfahrung. Aus technologischer Sicht sind sowohl die verwendeten Werkezuge als auch die zugrundeliegende Infrastruktur von Bedeutung.

Die Zusammenstellung von Technologien, die auch als Technology Stack bezeichnet wird, steht im Fokus dieses Beitrags. Die Elemente des Stacks spannen einen Bogen von den Datenquellen über Technologien zur Speicherung und Verarbeitung von Daten bis hin zur Bereitstellung von Ergebnissen.

Gibt es den optimalen Technology Stack überhaupt? Wie werden aus Anwendungsfällen Anforderungen an die Infrastruktur abgeleitet? Welche Werkzeuge sind für die Arbeit mit den vorhandenen Daten geeignet? Welche Technologien lassen sich gut miteinander kombinieren? Diese und ähnliche Fragen werden dem Team von Fraunhofer Austria im Zusammenhang mit Data-Science-Projekten immer wieder gestellt.

Wenig überraschend ist, dass es den optimalen Technology Stack nicht gibt. Die Vielzahl an Technologien, aus denen der Stack aufgebaut sein kann, entwickelt sich rasant weiter. Ständig kommen neue Technologien hinzu und bestehende verändern sich oder verschwinden vom Markt. Gleichzeitig unterliegen auch die Anforderungen von Unternehmen einem stetigen Wandel. Die Folge davon ist, dass es nicht ausreicht, den Stack einmal aufzubauen. Vielmehr müssen sich Unternehmen laufend mit Optimierungspotenzialen auseinandersetzen.

In der Praxis empfiehlt sich ein pragmatisches Vorgehen. Dreh- und Angelpunkt sind die zu bearbeitenden Anwendungsfälle, der Datenbestand sowie vorhandene Fachkenntnisse und Erfahrungen.

Eine grobe Charakterisierung der Anwendungsfälle und Daten unter Berücksichtigung zentraler Aspekte schafft in der Regel bereits eine erste hilfreiche Basis für die Wahl geeigneter Technologien. Folgende Aspekte haben sich in der Praxis als besonders relevant erwiesen:

 

  • Umfang und Sensibilität der Daten
  • Komplexität der Analysen
  • Geschwindigkeit, mit der die Analysen durchgeführt werden sollen/müssen

Angenommen, die Charakterisierung der Anwendungsfälle und Daten ergibt, dass die Datenmenge nicht sehr groß ist, die Berechnungszeit bei der Durchführung von Analysen nicht kritisch ist, aber die Daten als sensibel zu betrachten sind. Dies würde klar gegen einen Technology Stack sprechen, der in wesentlichen Teilen auf Cloud-Lösungen setzt. Die Stärken einer Cloud-Lösung wie Performanz und Speicherplatz kämen nicht zur Geltung. Gleichzeitig spricht die Sensibilität der Daten gegen eine Verlagerung von Daten und Verarbeitungsschritten in die Cloud.

Wenn sich bei der Charakterisierung der Anwendungsfälle und Daten aber herausstellt, dass eine große Datenmenge sehr schnell verarbeitet werden muss und dies vor Ort ohne größere Investitionen nicht durchführbar ist, stellt sich die Situation grundlegend anders dar. In diesem Fall kann die Verwendung von Cloud-Lösungen die notwendige Performanz liefern, um die Daten wirtschaftlich, flexibel und in angemessener Geschwindigkeit zu verarbeiten. Gegebenenfalls ist eine vertiefte Beschäftigung mit dem Aspekt der Datensensibilität notwendig. Es ist zu beobachten, dass zunehmend Angebote auf den Markt kommen, die zwar auf Cloud-Lösungen setzen, aber für die Verarbeitung von sensiblen Daten aufgrund von besonderen Sicherheitsmaßnahmen geeignet sind. 

Die vorhandenen Fachkenntnisse und Erfahrungen spielen neben den Anwendungsfällen und Daten für die Wahl geeigneter Technologien eine wesentliche Rolle. Der Technology Stack soll die Umsetzung von Data-Science-Projekten möglich machen oder unterstützen und diese nicht behindern. Offenheit für neue Technologien und der Erwerb von Fachkenntnissen sind wichtig und sinnvoll, aber nicht in jedem Fall zwingend erforderlich. Es gilt im Einzelfall abzuwägen, ob die Vorteile neuer Technologien den Aufwand für die Einarbeitung rechtfertigen. Manchmal ist der Einsatz eines aus technischer Sicht nicht ganz optimalen Werkzeugs ratsam, wenn damit bereits Erfahrungen gesammelt werden konnten.

Häufig wird die Frage gestellt, ob in einem konkreten Data-Science-Projekt ein grafisches Werkzeug wie Tableau oder QlikView oder eine Programmiersprache wie R oder Python verwendet werden soll. Sofern Anwendungsfälle und Daten nicht gegen die eine oder andere Werkzeugkategorie sprechen, sollte die Wahl auf Basis der vorhandenen Fachkenntnisse und Erfahrungen getroffen werden. Die Verwendung von Programmiersprachen birgt zwar einerseits ein relativ großes Risiko, dass der erforderliche Einarbeitungsaufwand unterschätzt wird. Andererseits ermöglicht der sichere Umgang mit einer für Data Science geeigneten Programmiersprache vielfältige Analysemöglichkeiten, die sich mit grafischen Werkzeugen unter Umständen noch nicht ohne weiteres abbilden lassen.

Abschließend bleibt zu betonen, dass die Auswahl geeigneter Technologien zur Ermöglichung und Unterstützung von Data Science eine Aufgabe ist, die mit Bedacht angegangen werden sollte, gleichzeitig aber auch einen gewissen Pragmatismus erfordert. Es ist eine Aufgabe, die Unternehmen, die Data Science zur Generierung von Mehrwert nutzen wollen, dauerhaft begleitet. Gerade beim Einstieg in neue Projekte sollte immer kritisch hinterfragt werden, ob die vorhandene Infrastruktur und die eingesetzten Werkzeuge geeignet sind oder ob Anpassungen notwendig sind. Erfahrungen aus früheren Projekten und der Austausch mit anderen Unternehmen, die sich mit ähnlichen Fragestellungen beschäftigen, können bei solchen Überlegungen Orientierung bieten.

Es besteht kein Zweifel, dass die Wahl geeigneter Infrastruktur und Werkzeuge einen wesentlichen Einfluss auf den Erfolg von Data-Science-Projekten hat. Auch wenn eine gewisse Konsolidierung am Markt nicht überraschen würde, wird die Anzahl an Technologien, aus denen ein Data Science Technology Stack aufgebaut sein kann, auf absehbare Zeit beachtlich bleiben. Werden grundlegende Regeln beachtet, kann es auch KMU mit vertretbarem Aufwand gelingen, die richtigen Entscheidungen in Bezug auf den Stack zu treffen und damit die Erfolgswahrscheinlichkeit von Data-Science-Projekten im Unternehmen zu erhöhen. Die auf dem Markt befindlichen Technologien schaffen hervorragende Voraussetzungen für Data Science. Diese gilt es für die eigenen Anwendungsfälle zu nutzen.

Fraunhofer Austria bietet im Rahmen des DIH West am 27. Mai 2021 einen halbtätigen Online-Workshop zum Thema Data-Science-Technology-Stack an. Anmeldungen sind bereits möglich. Weitere Informationen zum Workshop finden Sie hier: https://dih-west.at/events/online-workshop-data-science-technology-stack/ 

Weitere Fortbildungen, Workshops und mehr Informationsangebot finden Sie bei unseren DIH West Terminen. 

Autoren

Maximilian Ulrich

Maximilian Ulrich

Fraunhofer Innovationszentrum »Digitale Transformation der Industrie«, Fraunhofer Austria Research GmbH
maximilian.ulrich@fraunhofer.at

Daniel Bachlechner

Daniel Bachlechner

Fraunhofer Innovationszentrum »Digitale Transformation der Industrie«, Fraunhofer Austria Research GmbH
daniel.bachlechner@fraunhofer.at