Data Vault im Vergleich zu klassischen DWH Methoden

Data Vault ist eine Weiterentwicklung der klassischen Data Warehouse Methoden von Ralph Kimball und Bill Inmon.

DWH Methoden im Vergleich: dimensional - 3. Normalform - Data Vault 2.0
DWH Methoden im Vergleich: dimensional - 3. Normalform - Data Vault 2.0
dimensionales DWH DWH in 3. Normalform Data Vault 2.0 DWH
Ralph Kimball Bill Inmon Dan Linstedt
Star Schema, Cube 3.Normalform flexible, pattern-basierte Hub & Spoke Architektur
optimiert für Datenanalysen optimiert für Datenintegration

Die dimensionale Modellierung von Kimball hat den Fokus auf einfache Datenanalysen und ist optimal für die Zugriffsschicht eines Data Warehouses.

Die Inmon Schule propagierte eine Enterprise- Integrationsschicht in 3. Normalform, die alle Quellsysteme in ein einheitliches, historisiertes Fachbereichsmodell transformiert. Die Modellierung in 3. Normalform ist optimiert für operative Systeme und stößt bei Datenintegration schnell an seine Grenzen.

Seit 2010 empfiehlt auch Bill Inmon die Data Vault Modellierung für die Integrationsschicht.

Die größten Nachteile der klassischen Data Warehouse Methoden sind:

  • Frühe Transformation in das Fachbereichsmodell.
  • Enge Kopplung des Datenmodells.
  • Komplexe Ladeprozesse, die zu viele Aufgaben übernehmen.

Änderungen haben dadurch große Auswirkungen und sind entsprechend teuer. Das behindert das Wachstum des Data Warehouses, da notwendige Änderungen aus Kostengründen vermieden werden.

Die Data Vault 2.o Methode von Dan Linstedt hat den Fokus auf Flexibilität und einfache, schrittweise Integration von Daten. Sie ist optimal für die Integrationsschicht eines Data Warehouses. Durch kleinere Transformationsschritte wird die Architektur standardisiert, die Wiederverwendung der Daten gefördert und die Agilität erhöht. Änderungen werden dadurch billiger.

Data Vault Schichtenarchitektur als Pyramide: Source - Stage - Raw Data Vault - Business Vault - BI &Analytics
Data Vault Schichtenarchitektur

Die Datenpyramide symbolisert dass nur ein Teil der vorhandenen Daten für Entscheidungen relevant ist und über mehrere Schichten in hochwertige Informationen transformiert wird.

Die Stage dient der Entkopplung der Quellsysteme vom Datawarehouse.

Die Integrationsschicht im Data Vault unterscheidet strikt zwischen Rohdaten und angereicherten, inhaltlich veränderten Daten.

Der  Raw Data Vault ordnet die Rohdaten nach Geschäftskonzepten an. Der Fokus ist auf Identifizierung der Geschäftsschlüssel und Geschäftsbeziehungen sowie auf Historisierung. Es werden nur harte Geschäftsregeln angewendet. Das sind Deduplizierung, Datentypkonversionen sowie Normalisierung/ Denormalisierung der Daten.

Im Business Vault werden die weichen Geschäftsregeln angewendet.  Daten werden anhand der Spezifikation des Fachbereichs harmonisiert, angereichert bzw. berechnet. Nur hier sind inhaltliche Transformationen erlaubt.

Der Business Vault kann jederzeit gelöscht werden und aus dem Raw Vault neu berechnet werden. D.h. im Gegensatz zu klassischen Data Warehouse Architekturen, wo Geschäftsregeln sofort angewendet werden,  werden Änderungen der Spezifikation im Data Vault schnell und effizient umgesetzt.

Die Data Vault 2.0 Methode erhöht die Flexibilität der Integrationsschicht durch konsequente Zerlegung in klar strukturierte Komponenten mit eindeutigen Zuständigkeiten. Das führt zu einfachen, überschaubaren Ladeprozessen, die automatisierbar sind.

Zerlegung in Komponenten -  einfache Integration - Automatisierung

Diese Zerlegung wird in der Data Vault Modellierung konsequent fortgesetzt.