Zum Hauptinhalt springen

BIG DATA - BIG PROBLEMS

Das Wachstum der Datenmengen ist spätestens durch den Siegeszugs des Internet exponentiell. Aber auch abseits der Datenkrake Internet werden kräftig Daten gesammelt: Das potentiell auswertbare Datenvolumen, das ein vollbesetztes Flugzeug auf einem einzigen One-Way-Flug generiert, wird laut einer Mc-Kinsey-Studie auf über 200 Terabyte geschätzt. Entgegen der Erwartungshaltung, die Angesichts des Begriffes entstehen könnte, ist es aber keineswegs alleine die Datenmenge, die im Zentrum der Big-Data-Bewegung steht. Denn der bisherige Waffenschrank der Datenanalyse, der unter dem Begriff Business Intelligence üblicherweise zusammengefasst wird, setzt stark vorstrukturierte und gut konzipierte Datenmodelle voraus – und damit einen zeitraubenden Prozess. Ein Grund, warum einschlägige Projekte sehr oft von der Realität überholt werden – Endanwender nennen bei Befragungen neben dem „Evergreen“ Abfragegeschwindigkeit die Geschwindigkeit bei strukturellen Änderungen und neuen Anforderungen als Hauptprobleme bei ihren Bi-Initiativen.

WENIGER STRUKTUR, MEHR DATEN

Deswegen unterscheidet sich der Big-Data-Ansatz von bisherigen konventionellen Ansätzen in erster Linie dadurch, flexibel mit polystrukturierten Daten umgehen zu können. Neben den klassischen strukturierten Daten, wie sie beispielweise von einem internen ERP-System generiert werden, kommen semistrukturierte Dokumente, wie auf den Standards HTML oder XML aufbauende oder auch völlig unstrukturierte Dokumente hinzu. Für letzteres sind Blogs ein gutes Beispiel: Viele Markenartikelhersteller versuchen herauszufinden und zu analysieren, wie oft und in welchem Kontext ihre Produkte in Blogs und Foren erwähnt werden. Und an diesem Beispiel lassen sich die Probleme, die Big Data zu lösen versucht, bestens zusammenfassen:

Erstens: Es sind sehr viele Daten, diese sind nicht strukturiert oder die Strukturierung liegt nicht im Einflussbereich des Unternehmens und kann sich dynamisch verändern.

Zweitens: Die methodische Auswertung erfordert völlig neue Analysetechnologien: Im konkreten Fall Algorithmen, welche den Kontext – handelt es sich um eine Beschwerde, eine lobende Erwähnung oder einen Vergleich mit einem Konkurrenzprodukt – in allen wesentlichen Weltsprachen erkennen.

Drittens: Dafür ist nicht nur zusätzliche Technologie erforderlich, sondern auch eine Kombination aus Verständnis für das Business-Problem und tiefgreifendem Verständnis für das technologisch sinnvoll Machbare.

Einige Branchenanalysten sehen daraus das neue Berufsbild des „Data Scientist“ erwachsen. Hotline-Betreiber experimentieren bereits mit Spracherkennungsalgorithmen, die aus der Tonalität des gesprochenen Wortes den Kontext erkennen und so eine emotional vorgetragene Beschwerde von einer Routineanfrage unterscheiden können. Gelingt es, mit derartigen Technologien beispielsweise ein verändertes Kundenverhalten deutlich früher zu erkennen, generiert sich zweifellos ein Wettbewerbsvorteil. Derartige Szenarien tragen auch Unschärfe systemimmanent in sich: Im Gegensatz zu auf internen Daten basierenden BI-Systemen muss sowohl bei der Aggregation der Daten wie auch bei der Analyse mit teilweise unvollständigen Daten sowie Wahrscheinlichkeiten gearbeitet werden, ein Szenario, auf das die konventionellen Bi- und DWH-Lösungen heute völlig unzureichend vorbereitet sind. Der bekannte IT-Analyst Wolfgang Martin fasst es pointiert zusammen: „Der Single Point of Truth geht baden.“

DEFINITION VON BIG DATA

Wie definiert sich also Big Data? Eine weltweit anerkannte, einheitliche Definition hat sich bis heute nicht etabliert. Dies liegt unter anderem daran, dass alle maßgeblichen Hersteller von Software, Hardware und Appliance Lösungen im „konventionellen“ Business-Intelligence-Bereich versuchen, die Big-Data-Welle mitzureiten und ihre eigenen Definitionen durchzusetzen. Im deutschsprachigen Raum ist die Definition des Barc-Instituts Würzburg am populärsten: „Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.“

Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.

BARC

TECHNOLOGIEN FÜR BIG DATA

Ist also Big Data eine neue Softwaregattung, die bisherige Investitionen in Business Intelligence und Data-Warehouse vollständig ersetzt? In dieser Eindeutigkeit sicherlich nicht. Die etablierten Business-Intelligence-Hersteller erweitern zurzeit ihre Plattformen in Richtung besserer Tauglichkeit für Big-Data-Szenarien. Dennoch entstehen alternative Architekturen, einige daraus auch aus dem Open-Source-Bereich, in dem es eine innovative Szene rund um Big Data gibt. Als Beispiele werden im Bereich der sogenannten NOSQL-Datenbanken („not only SQL“) oft CouchDB und MongoDB genannt, die als Datenbanken auf die Verarbeitung von unstrukturierten Daten ausgelegt sind.

Einen wahren Hype erlebt zurzeit Hadoop, von seinem Erfinder Doug Cutting nach dem gelben Lieblingselefanten seines Sohnes benannt. Hadoop basiert auf dem sogenannten Mapreduce-Algorithmus, der die massiv parallele Verarbeitung von großen Datenmengen unterstützt und von Google populär gemacht wurde. Die Idee dahinter ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese zur massivparallelen Verarbeitung auf möglichst viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit erhofft man das Problem, sehr große, unstrukturierte Datenmengen bei überschaubaren Investitionen in Hardware analysieren zu müssen, in den Griff zu bekommen. Das passiert als Batch-Verarbeitung und setzt damit einen Kontrapunkt zu den im klassischen Business-Intelligence-Bereich immer populärer werdenden In-Memory Datenbanken. Hadoop ist ein in Java verfügbares Open-Source-Framework, das zunehmend auch von großen Herstellern wie Microsoft, IBM oder SAS implementiert oder in eigenen Lösungen unterstützt wird. Außerdem wird Hadoop mittlerweile von verschiedenen professionellen Distributoren mit Support und passenden Dienstleistungen angeboten, wodurch sich die Verbreitung im kommerziellen Bereich beschleunigt. Hadoop ist keineswegs eine „Out of the Box“-Lösung: Die Qualität der Analysen steht und fällt mit den komplexen Algorithmen, die pro Sachthema entwickelt werden müssen.

BIG DATA - MAKE OR BUY?

Spannend wird auch sein, zu beobachten, wie sich der Markt auf reine Soft- und Hardwareanbieter, Anbieter von Appliances und spezialisierte Dienstleister verteilt. Am Beispiel der Bloganalyse bündeln einige Serviceanbieter die komplette Leistung als extern zukaufbares Service und beliefern Kunden mit fertigen Auswertungen. Angesichts der Komplexität der Technologie und der hohen Spezialisierung ist dieses Modell in verschiedenen Bereichen eine interessante Alternative, wenn auch die Chance auf Wettbewerbsvorteile durch eigene, besonders clevere Implementierungen damit ausgelassen wird. In anderen Bereichen werden Big-Data-Ansätze die klassischen BI-Architekturen in den meisten Fällen wohl eher evolutionär weiterentwickeln oder in einzelnen funktionalen Bereichen ergänzen. Die ersten Erfahrungen zeigen, dass die Komplexität keineswegs nur in der Technik liegt – die Anforderungen an die Analysewerkzeuge nehmen ebenso zu wie an den Benutzer davor.

Nachdem sich Unternehmen mit Big Data in neue funktionale Bereiche der Datenanalyse begeben und vielfach Pionierarbeit leisten, bleibt auch ein klassisches Problem erhalten, welches die Business-Intelligence-Branche seit ihrem Bestehen begleitet: Die Darstellung des ROI ist keine triviale Aufgabe und muss meist auf spekulativen Annahmen aufbauen. Der diskontierte Cash Flow einer früher oder überhaupt durch Big Data erst richtig getroffenen Entscheidung ist schwer belastbar zu kalkulieren. Die unschärfe begleitet Big-Data Initiativen also von Beginn an.

AUTOR

Stefan Sexl ist Mitbegründer und ehemaliger Vorstand der pmOne AG. Zuvor war er u.a. Mitgründer von EFS Informationstechnologie, einem Beratungsunternehmens für OLAP und BI, Leiter Produktmanagement für Business Intelligence bei der heutigen MIS AG, Geschäftsführer Vertrieb/Marketing der MIS Technologies und als freier Berater und Autor tätig.

SOFTWARE ENGINEER (m/w/d)

Wir suchen zum nächstmöglichen Zeitpunkt einen Software Engineer (m/w/d), der Lust hat mit uns viel zu bewegen.

CoPlanner Software & Consulting GmbH, mit den Standorten Graz (Head Office), Wien, Köln, Berlin und München, ist ein österreichisches Beratungs- und Softwarehaus mit dem Schwerpunkt Business Intelligence im gesamten kaufmännischen Unternehmensumfeld. Zur Verstärkung unseres Teams in Graz suchen wir ab sofort einen
 

SOFTWARE ENGINEER (m/w/d)


In dieser spannenden und herausfordernden Position sind Sie mit der Entwicklung von Modulen für unsere Produkte und Lösungen mit client- und serverseitigen Webtechnologien mitverantwortlich. Zu Ihren Aufgaben gehört sowohl die Programmierung im Front-End- als auch im Back-End-Bereich. Zudem werden Sie bei Testszenarien eng mit dem Qualitätsmanagement zusammenarbeiten.

 

AUFGABEN

  • Single-Page-Applications in React mitentwickeln

  • Anbindung an Backend-API

  • Mitarbeit bei Backend-API-Entwicklung

 

ERFORDERLICHE QUALIFIKATIONEN

  • Programmierkenntnisse in mindestens einer Programmiersprache

  • Grundlegendes Verständnis von Entwicklung in objektorientierten Sprachen

  • Lernbereitschaft und Interesse an modernen Webtechnologien

  • Kommunikations- und Teamfähigkeit

  • Eigenverantwortliche Arbeitsweise

  • Gute Deutsch- (B2) und Englischkenntnisse (B1) in Wort und Schrift

 

VON VORTEIL

  • Programmierkenntnisse in JavaScript, TypeScript, C#

  • Designkenntnisse (z.B. HTML, CSS)

  • Kenntnis von React und Redux

  • Erfahrung mit (REST-)APIs, API-Design

  • Know-how im Test-Driven-Design

  • Interesse an serviceorientierten Architekturen

  • Datenbank-Know-how

  • Kenntnis von Microsoft-Technologien (z.B. MSSQL, SSAS, SSRS)

 

WIR BIETEN

  • Umfangreiche Sozialleistungen

  • Gleitzeit

  • Ein vielseitiges Arbeitsumfeld

  • Eine anspruchsvolle, interessante und abwechslungsreiche Tätigkeit

  • Gute Entwicklungs- und Weiterbildungsmöglichkeiten in einem jungen, wachsenden Team

  • Spannende technische Herausforderungen

  • Angenehmes Betriebsklima

 

Das Mindestjahresbruttogehalt für diese Position beträgt EUR 30.400, je nach Qualifikation und Berufserfahrung ist eine Überzahlung möglich. Wir freuen uns auf Ihre aussagekräftige Bewerbung - die absolut vertraulich behandelt wird - an office@coplanner.com.