DATENINTEGRATION – EINE GRUNDLAGE FÜR WEITERFÜHRENDE ANALYSEN

IDC, Data Age 2025 The Evolution of Data to Life-Critical

Im Zuge der Digitalisierung und der damit einhergehenden Automatisierung und Vernetzung von Systemen (z.B. durch das Internet of Things) steigt die Anzahl anfallender Daten stetig. Einer Prognose der International Data Corporation zu Folge erreichen die jährlich erzeugten Datenmengen im Jahr 2025 ein Volumen von 163 Zetabyte.1

Dieser Anstieg stellt die Verarbeitung der Daten vor neue Herausforderungen, vor allem in Kombination mit dezentralen Datenaufkommen. Hierbei kann die Datenintegration ein Mittel darstellen, um die meist verschiedenartigen Daten zusammenzuführen. Gleichzeitig gilt es mit Hilfe der Datenintegration hinsichtlich Industry Analytics wichtige von unwichtigen Daten zu unterschieden.

Datenintegration

Die Datenintegration ist nach Mertens gekennzeichnet durch das logische zusammenführen von Datenbeständen.2 Darin zeigt sich jedoch nur ein Aspekt der Integration – der Integrationsgegenstand. Darüber hinaus kann die Datenintegration nicht allgemeingültig definiert werden. Die dafür benötigten restlichen Aspekte der Integration – Integrationsrichtung, Automationsgrad, Integrationszeitpunkt sowie Integrationsreichweite – können erst im konkreten Anwendungsfall bestimmt werden.

  • Die Integrationsrichtung beschreibt über welche Hierarchieebenen innerhalb eines Unternehmens die Integration erfolgt. Bei einer horizontalen Datenintegration werden die Daten einer Hierarchieebene (z.B. über verschiedene operative Systeme) zusammenführt. Bei einer vertikalen Datenintegration erfolgt das Zusammenführen der Daten über verschiedene Hierarchieebenen (z.B. aus der operativen Ebene in die taktische Ebene)
  • Der Automationsgrad gibt den Grad an, inwiefern die Integration eigenständig maschinell erfolgt. Hierbei wird von einer Vollautomation gesprochen, wenn das Erkennen und Verarbeiten neuer Daten ohne Einwirkung von Personen erfolgt. Findet diese statt, wird von einer Teilautomation gesprochen. Dies ist z.B. der Fall, wenn automatisiert neue Daten erkannt und interpretiert werden, aber anschließende Maßnahmen in Interaktion mit einem Benutzer durchgeführt werden.
  • Der Integrationszeitpunkt gibt an, wann die Integration erfolgt. Hier wird unterschieden, ob Daten Echtzeit mit Eintritt Ereignisses (z.B. neue Daten) direkt verarbeitet (Echtzeitverarbeitung) werden oder, ob diese zunächst gesammelt und dann gebündelt verarbeitet werden (Stapelverarbeitung).
  • Die Integrationsreichweite beschreibt, welche betrieblichen Einheiten die Integration umfasst. Hierbei wird unterschieden, ob die Integration innerhalb eines Unternehmenssektors (Bereichsintegration) oder über mehrere Unternehmenssektoren hinweg (bereichsübergreifende Integration) erfolgt. Die bereichsübergreifende Integration innerhalb eines Unternehmens wird auch als innerbetriebliche Integration bezeichnet. Verläuft die Integration über mehrere Unternehmen hinweg, wird stattdessen von einer zwischenbetrieblichen Integration gesprochen.

Dies betrifft auch den Aspekt, ob die Datenintegration zur Zielerfüllung genügt oder ob darüber hinaus ganze Aufgaben (Funktionsintegration), Prozesse (Prozessintegration), Methoden (Methodenintegration) oder Programme (Programmintegration) aufeinander abgestimmt werden müssen. Als Grundlage aller dieser Integrationsarten kann jedoch die Datenintegration angesehen werden. Da die Datenintegration stark von den Daten und deren Randbedingungen abhängt, muss diese für jeden Anwendungsfall neu konzeptioniert werden.  Deren Konzeption kann jedoch durch das Betrachten von bestimmten Einflussfaktoren unterstützt werden, durch welche grundlegende Anforderungen an die Datenintegration gestellt werden.

Daten

Die Daten als Gegenstand der Datenintegration stellen einen grundlegenden Einflussfaktor auf diese dar. Somit stellt die Analyse der zu integrierenden Daten einen der ersten Schritte hinsichtlich deren Integration dar.  Untergliedern lassen sich die Eigenschaften in zwei Kategorien – die Datenstruktur und die sogenannten „V“-Eigenschaften, welche oftmals in Zusammenhang mit Big Data stehen.3

Struktur

  • Unstrukturierte Daten sind in der Regel unverarbeitete Daten in ihrer Rohform – der Form in der sie erfasst werden. Gekennzeichnet sind diese vor allem dadurch, dass sich die Struktur der Daten nicht durch ein definierbares Schema beschreiben lässt. Hierzu zählt unter anderem geschriebener Text.
  • Strukturierte Daten sind organisierte Daten, deren Struktur sich durch ein definierbares Schema beschreiben lässt. Oftmals entstehen strukturierte Daten durch die Aufbereitung bzw. Verarbeitung für einen bestimmten Zweck. Ein klassisches Beispiel für diese Struktur sind Daten, welche innerhalb einer relationalen Datenbank persistiert sind.
  • Semistrukturierte Daten sind Daten, die sowohl einen strukturierten als auch einen unstrukturierten Teil besitzen. Ein Beispiel für diese Art der Datenstruktur sind E-Mails. Dabei ist der Header (Kopfzeile) der E-Mail strukturiert durch die Felder Absender, Empfänger und Betreff. Der Body (Rumpf) der E-Mail in Form des Textes liegt jedoch unstrukturiert vor.

„V“-Eigenschaften

Die „V“-Eigenschaften gehen zurück auf die „3 Vs“, welche erstmals durch den Analysten Doug Laney verwendet wurden, um Big Data zu definieren. Nach ihm definiert sich der Begriff durch die Eigenschaften Volume (Volumen), Velocity (Geschwindigkeit) und Variety (Vielfalt).4

  • Volume beschreibt die Menge der Daten. Für eine Verarbeitung umfasst dies vor allem die Anzahl der zu verarbeitenden Daten. Nicht zu verachten ist jedoch auch der Bedarf an eventuell benötigtem Speicher.
  • Velocity beschreibt die Geschwindigkeit der Daten. Dies umfasst einerseits die Rate, mit der die Daten auftreten, andererseits – im Hinblick auf die Datenintegration bzw. Nutzung der Daten – die Rate, in der die Daten verarbeitet werden müssen.
  • Variety beschreibt die Vielfältigkeit der Daten. Dieser Aspekt bezieht sich vor allem auf die Struktur der Daten bzw. – im Hinblick auf die Integration – auf die Strukturunterschiede der verschiedenen Daten.

Die Definition von Big Data durch die „V“-Eigenschaften wurde auch von anderen bekannten Unternehmen aufgegriffen und teilweise ergänzt. So erweitert IBM z.B. die Definition um die Eigenschaft Veracity (Korrektheit). Diese beschreibt die Herausforderung festzustellen, ob die Daten überhaupt vollständig sind. Dieses Modell hat wiederum Microsoft um die Aspekte Visibility (Visualisierung) und Value (Informationswert) ergänzt. Diese stellen die Herausforderungen dar Daten einerseits für den gewollten Zweck aufbereiten zu können und andererseits festzustellen welche Daten für den Zweck überhaupt einen Mehrwert besitzen.

Zu beachten ist hierbei, dass es für keine der genannten Eigenschaften einen bestimmten Schwellenwert gibt, ab dem von Big Data gesprochen wird. Viel mehr definiert sich Big Data eher durch die Herausforderungen, welche diese Eigenschaften an die Verarbeitung der Daten stellt. Somit ist der Begriff Big Data zeitabhängig. So könnten Daten, die heute unter den Begriff Big Data fallen, in einigen Jahren keine Herausforderung mehr an die bis dahin entwickelte Technologien stellen.

Systemarchitekturen

Unter der bestehenden Systemarchitektur ist vor allem der Aspekt zu betrachten, wo die zur verarbeitenden Daten entstehen. Dies hat Einfluss auf die Art und Weise, wie auf die Daten zugegriffen werden kann bzw. muss. Hierbei greifen vor allem die Aspekte der Verteilung, der Heterogenität sowie der Autonomie. Oftmals werden diese Aspekte auch unter den „orthogonalen Dimensionen der Informationsintegration“ zusammengefasst.5

Öser2

Die Verteilung beschreibt, wo sich die Daten befinden bzw. wie diese auf die vorliegenden Systeme aufgeteilt wurden.

  • Logisch verteilt sind Daten, die innerhalb unterschiedlichen, logischen Orten persistiert sind. Zu diesen zählen z.B. Tabellen oder Schemata. Ein weiterer Aspekt hierbei ist die Partitionierung, welche die weitere Verteilung innerhalb des logischen Ortes beschreibt. So können die Datensätze einer Tabelle weiter zerlegt werden – z.B. spaltenweise (vertikale Partitionierung) oder zeilenweise anhand bestimmter Attributausprägungen (horizontale Partitionierung).
  • Physisch verteilt sind Daten, wenn diese auf verschiedenen physischen Systemen – z.B. Servern – persistiert sind. Oftmals besteht außerdem die Herausforderung, dass sich diese Systeme an verschiedenen Orten befinden (geografische Verteilung). Zusätzlich können die Daten auch auf beide Arten verteilt werden – physisch und logisch.

Die Heterogenität beschreibt die Verschiedenheiten der vorliegenden Systeme und somit wie auf die Daten zugegriffen werden kann.

  • Technische Heterogenität umfasst den Aspekt der Hardware und Software hinsichtlich des Zugriffs auf die Daten. Die einzelnen Unterschiede können hierbei bei der Anfragemöglichkeit, der Anfragesprache, der Austauschformate und der genutzten Protokolle auftreten. Teilweise müssen verschiedene, technische Schnittstellen bei der Verarbeitung bedient werden – z.B., wenn historische Daten aus einem relationalen Datenbanksystem mit aktuellen Daten, welche direkt an einem Messgerät erfasst werden, vereint werden müssen.
  • Syntaktische Heterogenität beschreibt die „technischen Unterschiede in der Darstellung gleicher Sachverhalte“ (Helmis & Hollmann, S. 27). Hierzu zählen u.a. Datentypen, Zeichensätze oder unterschiedliche Dateiformate. Ein klassisches Beispiel ist die Verwendung unterschiedlicher Dezimalzeichen. So muss z.B. erkannt werden, dass ein System Dezimalzahlen mit Komma angibt, während das andere die gleichen Daten mit Punkt angibt.
  • Strukturelle Heterogenität liegt meist dann vor, wenn zwei verschiedene Modell den gleichen Ausschnitt der Realität abbilden. Hierbei ist darauf zu achten, dass die gleichen Daten unterschiedlich strukturiert vorliegen können. So kann in zwei relationalen Modellen, welche das gleiche abbilden, die Daten im ersten Modell in einer Tabelle vorliegen, während im zweiten Modell die benötigten Daten auf zwei Tabellen verteilt werden.
  • Semantische Heterogenität beschreibt die Unterschiede hinsichtlich der Bedeutung und des Kontexts – somit die Interpretation der Daten. Darunter fallen u.a. die Aspekte der Benennung der Datenfelder, verwendete Skalen oder die Wertbedeutung. Ein klassisches Beispiel für eine semantische Heterogenität bildet die Verwendung unterschiedlicher Einheiten. So haben die beiden Temperaturangaben 1,5 (Grad Celsius) und 34,7 (Grad Fahrenheit) die gleiche Bedeutung (Temperatur zum Zeitpunkt X), unterscheiden sich jedoch in ihrer Darstellung.

Die Autonomie „bezeichnet die Freiheit und Unabhängigkeit von Datenquellen untereinander im Hinblick auf Aufbau, Zugriff, Verwaltung usw.“ (Rossak, S. 27) Somit tritt die Autonomie vor allem bei verteilten Systemen auf und begründet bzw. verstärkt die Heterogenität.

  • Entwurfsautonomie umfasst den unabhängigen Entwurf eines Informationssystems. Diese tritt vor allem auf, wenn der Entwurf nicht durch übergeordnete Vorlagen beeinflusst wird. In Bezug auf Datenquellen besagt dies also, dass sich diese aufgrund der unabhängigen Entwicklung in ihrem Datenmodell unterscheiden, auch wenn diese die gleichen Daten beinhalten.
  • Schnittstellenautonomie beschreibt die freie Wahl bei Entwurf des Systems, wie technisch dieses zugegriffen werden kann. Somit bildet die Schnittstellenautonomie eine Ursache für die technische Heterogenität.
  • Kommunikationsautonomie erweitert die Schnittstellenautonomie um den Aspekt des Kommunikationsprozesses. Demnach kann sich jedes System in der Art und Weise unterschieden, ob, wie, wann und in welchem Umfang mit dem System kommuniziert werden kann. So ist es beispielsweise möglich, dass auf ein System nur innerhalb bestimmter Zeitintervalle zugriffen werden kann, um dessen Daten zu verarbeiten.

Anwendungszweck

Der Anwendungszweck repräsentiert den Grund, warum die Daten überhaupt integriert werden. Somit bildet diese auch eine der Grundlagen für die Anforderungen an das Integrationssystem. In den meisten Fällen lässt sich der Integrationszweck in zwei Bereiche aufteilen – der analytische und der operative.5

Im analytischen Bereich dient die Datenintegration vor allem der Auswertung der Daten            mit dem Ziel einen möglichst hohen Informationsgewinn zu erzeugen. Hierbei ist es oftmals erforderlich neben dem reinen Zusammenführen der Daten diese weiter zu aufzubereiten bzw. darstellbar zu machen. Die so aufbereiten Daten bzw. der erzeugte Informationsgewinn kann dann z.B. für strategische Entscheidungen (Prescriptive Analytics) innerhalb eines Unternehmens genutzt werden. Konkret könnten in diesem Bereich beispielsweise Bestandsanalysen (Descriptive Analytics) oder Prognosen (Predictive Analytics) gefordert werden.

Im operativen Bereich dient die Datenintegration dem Zusammenführen der im Tagesgeschäft des Unternehmens entstehenden Daten. Diese können dann entweder als Grundlage für den analytischen Bereich genutzt oder aber im operativen Bereich weiterverwendet werden. Als Beispiel einer Datenintegration im operativen Bereich dient eine automatisierte Produktion, bei der die an einzelnen Stationen anfallenden Daten zentral zusammengefasst oder zwischen diesen Stationen ausgetauscht werden sollen.

1: https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf

2: Mertens, Peter: Integrierte Informationsverarbeitung 1: Operative Systeme in der Industrie. Gabler Verlag, 18. Auflage, 2013.

3: Klein, Dominik, Phuoc Tran-Gia und Matthias Hartmann: Big Data. Informatik-Spektrum, 36(3):319–323, 2013.

4: https://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

5: Rossak, Ines: Datenintegration: Integrationsansätze, Beispielszenarien, Problemlösungen, Talend Open Studio. Hanser Fachbuchverlag, 2013.

6: Helmis, Steven und Robert Hollmann: Webbasierte Datenintegration – Ansätze zur Messung und Sicherung der Informationsqualität in heterogenen Datenbeständen unter Verwendung eines vollständig webbasierten Werkzeuges. Vieweg+Teubner, 2009.