Meta#Grid

A blog about meta data, BI and data warehousing

blog

Welche Daten gehören in ein Datawarehouse?

Alles?!

Die Antwort auf die Frage ist „Nein“ 😉

Daten sollten einen Zweck im DWH haben. Jede Anbindung und Verwaltung kostet Ressourcen (Zeit, Geld, Rechenleistung, Entwicklungskapazität, Betriebsaufwand, …).

Nur um „alles“ im DWH zu haben, würde den Ressourcenaufwand in die Höhe schiessen lassen (ohne einen direkten Nutzen zu generieren). Ein Abwägung was dringend und wichtig ist, sollte bei jeder Quelle/Auswertung/Usecase vorgenommen werden.

Ein paar dieser Gründe/Argumente werden nachfolgend aufgezählt. Dabei ist, je nach Kontext des Unternehmens, die Priorisierung sehr individuell zu sehen.

„Regeln“

Wie bei vielem, liefert die nachfolgende Auflistung einen Vorschlag und soll Denkanstöße liefern.

  • Daten welche revisionssicher gespeichert werden sollen
  • Daten welche ausgewertet sollen. Entweder in Reports oder als Export (bspw. an Drittsysteme, externe Vendoren, …)
  • Daten, welche historisiert werden müssen (gff. weil das Vorsystem dies nicht unterstützt)
  • Entlastung eines operativen Vorsystems auf welchem Abfragen durchgeführt werden
  • Sobald zwei Quellen miteinander „verquickt“ werden sollen, kann es sinnvoll sein, diese zentral im DWH vorzuhalten. Insbesondere, wenn Excel oder CSV Dateien hinzugezogen werden kann dies unter dem Aspekt der Datenqualität/-Aktualität enorm wichtig sein.
  • Alle Daten, welche für Data Science als Quelle(n) genutzt werden sollen
  • Alle produzierten Analytics Daten (Ergebnisse aus Data Science)

Hinweis

Zu bedenken ist auch, je mehr Daten im Warehouse sind, desto mehr muss auf die Governance geachtet werden (Security, Housekeeping, Performance, …)

In weiteren Teilen der Artikelserie wird auch auf diese Punkte und weitere eingegangen um Ideen vorzuschlagen.