Eine Suchanfrage bei Google Trend macht die Popularität des Begriffs von Big Data deutlich. Dieser Hype um Big Data hat nach Dr. May vom Fraunhofer Institut vor allem seine Begründung in der Verfügbarkeit immer größerer Datenmengen durch das Internet, aus Smartphones, aber auch in technischen Prozessen. Zudem haben Unternehmen wie beispielsweise Google, Facebook und Amazon sehr deutlich aufgezeigt, dass auf Big Data basierende Geschäftsmodelle sehr erfolgreich sein können. Darüber hinaus sind die Open Source Tools wie z.B. Hadoop zu einer kommerziell, nutzbaren Reife entwickelt worden, welcher sich gerade kleine Unternehmen bedienen [1].
Eine dreidimensionale Sicht auf Big Data wurde durch den Analysten Doug Laney geprägt. Er beschrieb die Herausforderungen des Datenwachstums mittels dem sogenannte 3-V-Modell (Volume, Velocity, Variety). [2] Darüber hinaus wurde das Modell um eine weitere, vierte Dimension „Veracity“ [3] oder „Analytics“ [4] erweitert. Dieses Merkmal beschreibt vor allem die Richtigkeit, Vollständigkeit und Verlässlichkeit von Dateninhalten, die objektiv nicht messbar sind.
Frühere ERP-Systeme beschäftigten sich mit der Datennutzung im Gigabyte-Bereich, um unternehmerische Prozesse und Aufgaben zu optimieren. Als nächster Entwicklungsschritt wurden kundenorientierte und logistische Informationen ergänzt. Durch die Digitalisierung, insbesondere durch die Entwicklung hin zum Web 2.0, steigen jedoch die Datenmengen rasant an. Diese Datenflut ist nicht mehr mit den herkömmlichen Mitteln (z.B. relationalen Datenbanken) beherrschbar. Durch den technologischen Fortschritt verschieben sich jedoch die Grenzen des Machbaren. Es steht vor allem die Nutzung sensorgenerierter, vernetzter Daten aus allen zur Verfügung stehenden Quellen im Fokus. [5]
Technologien
Die Entwicklung von Software zur Verarbeitung von großen Datenmengen steckt noch im Anfang. Vor allem das parallele Arbeiten in Rechner-Clustern spielt eine entscheidende Rolle bei vielen bekannten Verfahren. Nachfolgend werden die wohl prominentesten Ansätze, die aktuell im Bereich Big Data Anwendung finden, etwas genauer betrachten.
Map Reduce: Beschäftigt man sich heute mit dem Thema Big Data wird man zwangsläufig relativ schnell auf das Map-Reduce Verfahren von Google Inc. stoßen. Dieses wurde 2004 eingeführt und dient der parallelen Verarbeitung sehr großer Datenmengen (Petabyte-Bereich) auf verteilten Systemen, sogenannten Computerclustern. Inspiriert wurde das Map Reduce Konzept von den zwei häufig verwendeten Funktionen „map“ und „reduce“ aus der Welt der funktionalen Programmiersprachen [6].
NoSQL: Der Begriff tauchte bereits 1998 das erste Mal im Zusammenhang mit einer relationalen Datenbank, welche auf SQL verzichtete auf. Im Jahr 2009 wurde die Idee wieder aufgegriffen, um eine Alternative für ein Problem zu finden, für welches relative Datenbanken nicht geeignet waren [7]. NoSQL steht kurz für „not only SQL“ und beschreibt generell Datenbanken, welche die lange Tradition des relationalen Datenbank-Ansatzes brechen. Sie benötigen keine festen Tabellenschemas und werden oft als „strukturierte Datenspeicher“ bezeichnet. Durch die Abwesenheit der komplexen Tabellen-Strukturen und Abhängigkeiten entsteht eine viel bessere horizontale Skalierbarkeit bei wachsenden Datenmengen gegenüber relationalen Modellen [8].
Einordnung von Big Data
Der immer noch nicht vollständig abgrenzbare Begriff Big Data umfasst einen großen Themenkomplex und ist im Wesentlichen ursächlich in der immer stärkeren Digitalisierung der Welt. Die stetig steigende Datenmenge ist für Unternehmen insbesondere dann von großem Interesse, wenn sich daraus ein Wettbewerbsvorteil ableiten lässt. Ob Unternehmen einen Vorteil aus den neunen Möglichkeiten von Big Data entwickeln, ist von mehreren Faktoren (z.B. Branche, Geschäftsmodell) abhängig. Beispielsweise ist es in der B-to-C Branche unerlässlich für den Unternehmenserfolg, die Bedürfnisse seiner Kunden zu kennen. Mittels Big Data ist es möglich, Ressourcen für Werbemaßnahmen zu senken und gleichzeitig gezielter einzusetzen z.B. durch personalisierte Kundenansprache. Allerdings sind Big Data Analysen mit einem entsprechenden Aufwand verbunden, um die unstrukturierten, meist subjektiven Informationen einer Person zusammenzuführen und zielführend zu verarbeiten. Gerade dieser Aspekt erfordert eine bewusste Unternehmensentscheidung über das Aufwand-Nutzen-Verhältnis, damit die zur Verfügung stehenden Unternehmensressourcen nicht übermäßig beansprucht werden. Neben dem finanziellen Gesichtspunkt besteht zudem das Risiko, die Daten bzw. die daraus ermittelten Ergebnisse falsch zu interpretieren und etwaige unternehmerische Fehlentscheidungen zu treffen. Somit ist Big Data immer individuell auf das betreffende Unternehmen oder Anwendungsfall zu hinterfragen. Typische Methoden des Data Minings für KMU haben wir hier zusammengefasst. Mit der Weiterentwicklung der Technologien zur Verarbeitung von großen Datenmengen entstehen vor allem für sehr spezielle Probleme und Anwendungsfälle effiziente Lösungen. Letztendlich ist Big Data mehr als nur ein Hype-Begriff, da die Herausforderungen im Rahmen der Digitalisierung die meisten Unternehmen direkt oder indirekt betreffen werden. Wie und mit welchem Nutzen jeweils mit all diesen Daten umgegangen wird, bleibt eine unternehmerische Einzelfallentscheidung.
[1] Dr. May, „www.estrategy-magazin.de“ 02 2013. Available: http://www.estrategy-magazin.de/big-data-modebegriff-oder-trend.html. [2] Dominik Klein, Phuoc Tran-Gia, Matthias Hartmann, „www.gi.de“ Available: http://www.gi.de/service/informatiklexikon/ detailansicht/article/big-data.html. [3] Dwaine Snow, „www.dsnowondb2.blogspot.de“ 16 July 2012. Available: http://dsnowondb2.blogspot.de/2012/07/adding-4th-v-to-big-data-veracity.html. [4] BITKOM, „www.bitkom.org“, Available:http://www.bitkom.org/files/documents/ BITKOM_LF_big_data_2012_online%281%29.pdf. [5] Andreas, Klein; Jens Gräf, Reporting und Business Intelligence, München: Haufe-Lexware GmbH & Co. KG, Auflage: 2, 2014, p. S. 203. [6] J. Dean und S. Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, 2004. [7] E. Evans, „ NoSQL: What’s in a name?,“ 30 Oktober 2009. Available: http://www.deadcafe.org/2009/10/30/nosql_whats_in_a_name.html. [8] „mongoDB“. Available: https://www.mongodb.com/nosql-explained.