Wie Daten generiert werden ist bekannt, Daten werden von verschiedensten Sensoren, Suchanfragen und anderen Quellen gesammelt und weitergeleitet. Die große Frage ist wohin werden die Daten weitergeleitet und wie werden diese dort verarbeitet? Hier kommt der Data Lake und das Data Warehouse ins Spiel, welche auf unterschiedliche Weise große Mengen von Daten speichern und bereitstellen können.
Daten in der Big Data Umgebung richtig speichern: Data Lake
Sobald Sensoren Informationen generiert haben, werden diese in einen sehr großen Datenspeicher weitergeleitet. Dieser Speicher wird als Data Lake (dt. Datensee) bezeichnet, welcher von verschiedensten Datenquellen ständig mit neuen Daten gespeist wird. Der Data Lake ist also eine Ansammlung von Daten im Rohformat, das heißt hier sind strukturierte, unstrukturierte, fehlerhafte, unformatierte Daten enthalten. Diese müssen nicht nur Text- oder Zahlendateien sein, sondern können auch im Bild-, Video- oder anderen Datenformaten vorliegen. Sobald Daten benötigt werden, werden diese aus den Data Lake selektiert und zum Beispiel durch den Knowledge-Discovery-in-Databasses-Prozess (KDD) in Wissen umgewandelt.
Durch diese Möglichkeit der Speicherung von riesigen Informationsmengen, findet ein Data Lake häufig in der Big-Data Umgebung Anwendung. Jedoch muss der Inhalt des See’s durch unbefugte Zugriffe gesichert werden. Der Speicher muss durch Zugriffskontrollen und Kryptografie geschützt werden, um Datenschutz und Datensicherheit zu gewährleisten.
Daten in der Big Data Umgebung richtig speichern: Data Warehouse
Dem gegenüber steht das Data Warehouse, genau wie der See ist das Warehouse ein große Speicher von Daten der diese zur Speicherung bereitstellt. Wie das Wort Warehouse (dt. Lager) vermuten lässt, ist diese Art der Datenspeicherung geordneter und strukturierter. Im Warehouse werden die von den Quellen zugesandten Daten überprüft und irrelevante Daten aussortiert und formatiert relevante Daten in ein vergleichbares Datenformat um. Im Data Lake finden sich auch unstrukturierte Daten, wie Bild- und Videodateien wieder, diese werden im Warehouse nicht aufgenommen.
Das Data Warehouse lässt sich in vier Bereiche mit unterschiedlichen Funktionen eingliedern. Das Quellsystem stellt verschiedene Daten bereit. Die Data Staging Area lädt entsprechende Daten aus den Quellsystemen. Sie ist dafür verantwortlich, dass die Daten extrahiert, strukturiert und transformiert ins Datenlager transportiert werden. Die Data Presentation Area bietet eine Übersicht der vorhandenen Daten. Auf diese abgetrennte Plattform haben nachgelagerte Systeme oder Anwendungen einen separaten Zugriff, ohne die strukturierten Quelldaten nachhaltig verändern zu können. Zu guter Letzt erlauben es Data Access Tools auf die Daten zuzugreifen.
Vergleich Data Lake und Data Warehouse
Wie in einem richtigen Lager wird der Datenbestand in regelmäßigen Abständen erneuert. Im Data Lake kommen immer neue Dateien hinzu ohne, dass ältere Dateien aussortiert werden. Aus diesem Grund wird das Speichervolumen des Data Lakes immer größer und der des Warehouses bleibt einigermaßen konstant und berechenbarer. Auf der anderen Seite erlaubt eine große Menge an Daten aussagekräftigerer und intensiverer Analyse, was für Unternehmen ein Vorteil gegenüber der Konkurrenz mitbringt. Das Data Warehouse benötigt durch die Vorselektion und Transformation der Daten mehr Rechenleistung, wie der Data Lake, jedoch erlauben diese Schritte eine direktere und schnellere Analyse der vorhandenen Daten.
Wer Daten speichern will, steht nun nicht vor einer Entweder-Oder-Entscheidung. Speichere ich meine Daten nach dem Prinzip des Lakes oder des Warehouses? Der Data Lake ist eine Ergänzung zum Data Warehouse, um in der Big-Data-Umgebung auch scheinbar irrelevante Daten zu sammeln, welche einen nicht sofort erkennbaren Zusammenhang haben. Daher kann das Data Warehouse als eigenständige Quelle für den Data Lake gesehen werden, sowie alle anderen Ergebnisse von durchgeführten Analysen in Verbindung mit anderen Daten weitere Erkenntnisse liefern.