Big Data - Big Problems
Das Wachstum der Datenmengen ist spätestens durch den Siegeszugs des Internet exponentiell. Aber auch abseits der Datenkrake Internet werden kräftig Daten gesammelt: Das potentiell auswertbare Datenvolumen, das ein vollbesetztes Flugzeug auf einem einzigen One-Way-Flug generiert, wird laut einer Mc-Kinsey-Studie auf über 200 Terabyte geschätzt. Entgegen der Erwartungshaltung, die Angesichts des Begriffes entstehen könnte, ist es aber keineswegs alleine die Datenmenge, die im Zentrum der Big-Data-Bewegung steht. Denn der bisherige Waffenschrank der Datenanalyse, der unter dem Begriff Business Intelligence üblicherweise zusammengefasst wird, setzt stark vorstrukturierte und gut konzipierte Datenmodelle voraus – und damit einen zeitraubenden Prozess. Ein Grund, warum einschlägige Projekte sehr oft von der Realität überholt werden – Endanwender nennen bei Befragungen neben dem „Evergreen“ Abfragegeschwindigkeit die Geschwindigkeit bei strukturellen Änderungen und neuen Anforderungen als Hauptprobleme bei ihren Bi-Initiativen.
Weniger Struktur, mehr Daten
Deswegen unterscheidet sich der Big-Data-Ansatz von bisherigen konventionellen Ansätzen in erster Linie dadurch, flexibel mit polystrukturierten Daten umgehen zu können. Neben den klassischen strukturierten Daten, wie sie beispielweise von einem internen ERP-System generiert werden, kommen semistrukturierte Dokumente, wie auf den Standards HTML oder XML aufbauende oder auch völlig unstrukturierte Dokumente hinzu. Für letzteres sind Blogs ein gutes Beispiel: Viele Markenartikelhersteller versuchen herauszufinden und zu analysieren, wie oft und in welchem Kontext ihre Produkte in Blogs und Foren erwähnt werden. Und an diesem Beispiel lassen sich die Probleme, die Big Data zu lösen versucht, bestens zusammenfassen:
Erstens: Es sind sehr viele Daten, diese sind nicht strukturiert oder die Strukturierung liegt nicht im Einflussbereich des Unternehmens und kann sich dynamisch verändern.
Zweitens: Die methodische Auswertung erfordert völlig neue Analysetechnologien: Im konkreten Fall Algorithmen, welche den Kontext – handelt es sich um eine Beschwerde, eine lobende Erwähnung oder einen Vergleich mit einem Konkurrenzprodukt – in allen wesentlichen Weltsprachen erkennen.
Drittens: Dafür ist nicht nur zusätzliche Technologie erforderlich, sondern auch eine Kombination aus Verständnis für das Business-Problem und tiefgreifendem Verständnis für das technologisch sinnvoll Machbare.
Einige Branchenanalysten sehen daraus das neue Berufsbild des „Data Scientist“ erwachsen. Hotline-Betreiber experimentieren bereits mit Spracherkennungsalgorithmen, die aus der Tonalität des gesprochenen Wortes den Kontext erkennen und so eine emotional vorgetragene Beschwerde von einer Routineanfrage unterscheiden können. Gelingt es, mit derartigen Technologien beispielsweise ein verändertes Kundenverhalten deutlich früher zu erkennen, generiert sich zweifellos ein Wettbewerbsvorteil. Derartige Szenarien tragen auch Unschärfe systemimmanent in sich: Im Gegensatz zu auf internen Daten basierenden BI-Systemen muss sowohl bei der Aggregation der Daten wie auch bei der Analyse mit teilweise unvollständigen Daten sowie Wahrscheinlichkeiten gearbeitet werden, ein Szenario, auf das die konventionellen Bi- und DWH-Lösungen heute völlig unzureichend vorbereitet sind. Der bekannte IT-Analyst Wolfgang Martin fasst es pointiert zusammen: „Der Single Point of Truth geht baden.“
Definition von Big Data
Wie definiert sich also Big Data? Eine weltweit anerkannte, einheitliche Definition hat sich bis heute nicht etabliert. Dies liegt unter anderem daran, dass alle maßgeblichen Hersteller von Software, Hardware und Appliance Lösungen im „konventionellen“ Business-Intelligence-Bereich versuchen, die Big-Data-Welle mitzureiten und ihre eigenen Definitionen durchzusetzen. Im deutschsprachigen Raum ist die Definition des Barc-Instituts Würzburg am populärsten: „Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.“
Big Data make or buy?
Spannend wird auch sein, zu beobachten, wie sich der Markt auf reine Soft- und Hardwareanbieter, Anbieter von Appliances und spezialisierte Dienstleister verteilt. Am Beispiel der Bloganalyse bündeln einige Serviceanbieter die komplette Leistung als extern zukaufbares Service und beliefern Kunden mit fertigen Auswertungen. Angesichts der Komplexität der Technologie und der hohen Spezialisierung ist dieses Modell in verschiedenen Bereichen eine interessante Alternative, wenn auch die Chance auf Wettbewerbsvorteile durch eigene, besonders clevere Implementierungen damit ausgelassen wird. In anderen Bereichen werden Big-Data-Ansätze die klassischen BI-Architekturen in den meisten Fällen wohl eher evolutionär weiterentwickeln oder in einzelnen funktionalen Bereichen ergänzen. Die ersten Erfahrungen zeigen, dass die Komplexität keineswegs nur in der Technik liegt – die Anforderungen an die Analysewerkzeuge nehmen ebenso zu wie an den Benutzer davor.
Nachdem sich Unternehmen mit Big Data in neue funktionale Bereiche der Datenanalyse begeben und vielfach Pionierarbeit leisten, bleibt auch ein klassisches Problem erhalten, welches die Business-Intelligence-Branche seit ihrem Bestehen begleitet: Die Darstellung des ROI ist keine triviale Aufgabe und muss meist auf spekulativen Annahmen aufbauen. Der diskontierte Cash Flow einer früher oder überhaupt durch Big Data erst richtig getroffenen Entscheidung ist schwer belastbar zu kalkulieren. Die unschärfe begleitet Big-Data Initiativen also von Beginn an.
Big Data bezeichnet Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.
Technologien für Big Data
Ist also Big Data eine neue Softwaregattung, die bisherige Investitionen in Business Intelligence und Data-Warehouse vollständig ersetzt? In dieser Eindeutigkeit sicherlich nicht. Die etablierten Business-Intelligence-Hersteller erweitern zurzeit ihre Plattformen in Richtung besserer Tauglichkeit für Big-Data-Szenarien. Dennoch entstehen alternative Architekturen, einige daraus auch aus dem Open-Source-Bereich, in dem es eine innovative Szene rund um Big Data gibt. Als Beispiele werden im Bereich der sogenannten NOSQL-Datenbanken („not only SQL“) oft CouchDB und MongoDB genannt, die als Datenbanken auf die Verarbeitung von unstrukturierten Daten ausgelegt sind.
Einen wahren Hype erlebt zurzeit Hadoop, von seinem Erfinder Doug Cutting nach dem gelben Lieblingselefanten seines Sohnes benannt. Hadoop basiert auf dem sogenannten Mapreduce-Algorithmus, der die massiv parallele Verarbeitung von großen Datenmengen unterstützt und von Google populär gemacht wurde. Die Idee dahinter ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese zur massivparallelen Verarbeitung auf möglichst viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit erhofft man das Problem, sehr große, unstrukturierte Datenmengen bei überschaubaren Investitionen in Hardware analysieren zu müssen, in den Griff zu bekommen. Das passiert als Batch-Verarbeitung und setzt damit einen Kontrapunkt zu den im klassischen Business-Intelligence-Bereich immer populärer werdenden In-Memory Datenbanken. Hadoop ist ein in Java verfügbares Open-Source-Framework, das zunehmend auch von großen Herstellern wie Microsoft, IBM oder SAS implementiert oder in eigenen Lösungen unterstützt wird. Außerdem wird Hadoop mittlerweile von verschiedenen professionellen Distributoren mit Support und passenden Dienstleistungen angeboten, wodurch sich die Verbreitung im kommerziellen Bereich beschleunigt. Hadoop ist keineswegs eine „Out of the Box“-Lösung: Die Qualität der Analysen steht und fällt mit den komplexen Algorithmen, die pro Sachthema entwickelt werden müssen.
Kommentare
Keine Kommentare
Kommentar schreiben