Big Data - Big Problems

Definition von Big Data

Wie definiert sich also Big Data? Eine weltweit anerkannte, einheitliche Definition hat sich bis heute nicht etabliert. Dies liegt unter anderem daran, dass alle maßgeblichen Hersteller von Software, Hardware und Appliance Lösungen im „konventionellen“ Business-Intelligence-Bereich versuchen, die Big-Data-Welle mitzureiten und ihre eigenen Definitionen durchzusetzen. Im deutschsprachigen Raum ist die Definition des Barc-Instituts Würzburg am populärsten: „Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.“

Big Data make or buy?

Spannend wird auch sein, zu beobachten, wie sich der Markt auf reine Soft- und Hardwareanbieter, Anbieter von Appliances und spezialisierte Dienstleister verteilt. Am Beispiel der Bloganalyse bündeln einige Serviceanbieter die komplette Leistung als extern zukaufbares Service und beliefern Kunden mit fertigen Auswertungen. Angesichts der Komplexität der Technologie und der hohen Spezialisierung ist dieses Modell in verschiedenen Bereichen eine interessante Alternative, wenn auch die Chance auf Wettbewerbsvorteile durch eigene, besonders clevere Implementierungen damit ausgelassen wird. In anderen Bereichen werden Big-Data-Ansätze die klassischen BI-Architekturen in den meisten Fällen wohl eher evolutionär weiterentwickeln oder in einzelnen funktionalen Bereichen ergänzen. Die ersten Erfahrungen zeigen, dass die Komplexität keineswegs nur in der Technik liegt – die Anforderungen an die Analysewerkzeuge nehmen ebenso zu wie an den Benutzer davor.

Nachdem sich Unternehmen mit Big Data in neue funktionale Bereiche der Datenanalyse begeben und vielfach Pionierarbeit leisten, bleibt auch ein klassisches Problem erhalten, welches die Business-Intelligence-Branche seit ihrem Bestehen begleitet: Die Darstellung des ROI ist keine triviale Aufgabe und muss meist auf spekulativen Annahmen aufbauen. Der diskontierte Cash Flow einer früher oder überhaupt durch Big Data erst richtig getroffenen Entscheidung ist schwer belastbar zu kalkulieren. Die unschärfe begleitet Big-Data Initiativen also von Beginn an.

Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.
BARC

Technologien für Big Data

Ist also Big Data eine neue Softwaregattung, die bisherige Investitionen in Business Intelligence und Data-Warehouse vollständig ersetzt? In dieser Eindeutigkeit sicherlich nicht. Die etablierten Business-Intelligence-Hersteller erweitern zurzeit ihre Plattformen in Richtung besserer Tauglichkeit für Big-Data-Szenarien. Dennoch entstehen alternative Architekturen, einige daraus auch aus dem Open-Source-Bereich, in dem es eine innovative Szene rund um Big Data gibt. Als Beispiele werden im Bereich der sogenannten NOSQL-Datenbanken („not only SQL“) oft CouchDB und MongoDB genannt, die als Datenbanken auf die Verarbeitung von unstrukturierten Daten ausgelegt sind.

Einen wahren Hype erlebt zurzeit Hadoop, von seinem Erfinder Doug Cutting nach dem gelben Lieblingselefanten seines Sohnes benannt. Hadoop basiert auf dem sogenannten Mapreduce-Algorithmus, der die massiv parallele Verarbeitung von großen Datenmengen unterstützt und von Google populär gemacht wurde. Die Idee dahinter ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese zur massivparallelen Verarbeitung auf möglichst viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit erhofft man das Problem, sehr große, unstrukturierte Datenmengen bei überschaubaren Investitionen in Hardware analysieren zu müssen, in den Griff zu bekommen. Das passiert als Batch-Verarbeitung und setzt damit einen Kontrapunkt zu den im klassischen Business-Intelligence-Bereich immer populärer werdenden In-Memory Datenbanken. Hadoop ist ein in Java verfügbares Open-Source-Framework, das zunehmend auch von großen Herstellern wie Microsoft, IBM oder SAS implementiert oder in eigenen Lösungen unterstützt wird. Außerdem wird Hadoop mittlerweile von verschiedenen professionellen Distributoren mit Support und passenden Dienstleistungen angeboten, wodurch sich die Verbreitung im kommerziellen Bereich beschleunigt. Hadoop ist keineswegs eine „Out of the Box“-Lösung: Die Qualität der Analysen steht und fällt mit den komplexen Algorithmen, die pro Sachthema entwickelt werden müssen.

Stefan Sexl
Executive Advisor
LinkedIn

Kommentar schreiben

Kommentare

Keine Kommentare