BIG DATA - BIG PROBLEMS

Das Wachstum der Datenmengen ist spätestens durch den Siegeszugs des Internet exponentiell. Aber auch abseits der Datenkrake Internet werden kräftig Daten gesammelt: Das potentiell auswertbare Datenvolumen, das ein vollbesetztes Flugzeug auf einem einzigen One-Way-Flug generiert, wird laut einer Mc-Kinsey-Studie auf über 200 Terabyte geschätzt. Entgegen der Erwartungshaltung, die Angesichts des Begriffes entstehen könnte, ist es aber keineswegs alleine die Datenmenge, die im Zentrum der Big-Data-Bewegung steht. Denn der bisherige Waffenschrank der Datenanalyse, der unter dem Begriff Business Intelligence üblicherweise zusammengefasst wird, setzt stark vorstrukturierte und gut konzipierte Datenmodelle voraus – und damit einen zeitraubenden Prozess. Ein Grund, warum einschlägige Projekte sehr oft von der Realität überholt werden – Endanwender nennen bei Befragungen neben dem „Evergreen“ Abfragegeschwindigkeit die Geschwindigkeit bei strukturellen Änderungen und neuen Anforderungen als Hauptprobleme bei ihren Bi-Initiativen.

WENIGER STRUKTUR, MEHR DATEN

Deswegen unterscheidet sich der Big-Data-Ansatz von bisherigen konventionellen Ansätzen in erster Linie dadurch, flexibel mit polystrukturierten Daten umgehen zu können. Neben den klassischen strukturierten Daten, wie sie beispielweise von einem internen ERP-System generiert werden, kommen semistrukturierte Dokumente, wie auf den Standards HTML oder XML aufbauende oder auch völlig unstrukturierte Dokumente hinzu. Für letzteres sind Blogs ein gutes Beispiel: Viele Markenartikelhersteller versuchen herauszufinden und zu analysieren, wie oft und in welchem Kontext ihre Produkte in Blogs und Foren erwähnt werden. Und an diesem Beispiel lassen sich die Probleme, die Big Data zu lösen versucht, bestens zusammenfassen:

Erstens: Es sind sehr viele Daten, diese sind nicht strukturiert oder die Strukturierung liegt nicht im Einflussbereich des Unternehmens und kann sich dynamisch verändern.

Zweitens: Die methodische Auswertung erfordert völlig neue Analysetechnologien: Im konkreten Fall Algorithmen, welche den Kontext – handelt es sich um eine Beschwerde, eine lobende Erwähnung oder einen Vergleich mit einem Konkurrenzprodukt – in allen wesentlichen Weltsprachen erkennen.

Drittens: Dafür ist nicht nur zusätzliche Technologie erforderlich, sondern auch eine Kombination aus Verständnis für das Business-Problem und tiefgreifendem Verständnis für das technologisch sinnvoll Machbare.

Einige Branchenanalysten sehen daraus das neue Berufsbild des „Data Scientist“ erwachsen. Hotline-Betreiber experimentieren bereits mit Spracherkennungsalgorithmen, die aus der Tonalität des gesprochenen Wortes den Kontext erkennen und so eine emotional vorgetragene Beschwerde von einer Routineanfrage unterscheiden können. Gelingt es, mit derartigen Technologien beispielsweise ein verändertes Kundenverhalten deutlich früher zu erkennen, generiert sich zweifellos ein Wettbewerbsvorteil. Derartige Szenarien tragen auch Unschärfe systemimmanent in sich: Im Gegensatz zu auf internen Daten basierenden BI-Systemen muss sowohl bei der Aggregation der Daten wie auch bei der Analyse mit teilweise unvollständigen Daten sowie Wahrscheinlichkeiten gearbeitet werden, ein Szenario, auf das die konventionellen Bi- und DWH-Lösungen heute völlig unzureichend vorbereitet sind. Der bekannte IT-Analyst Wolfgang Martin fasst es pointiert zusammen: „Der Single Point of Truth geht baden.“