Data Warehouse System

aus www.iwiki.de, der freien Wissensdatenbank

Ein Data Warehouse (DWH) stellt eine Datenbank dar, welche für spezielle Anforderungen der Datenanalyse konzipiert wurde. Das DWH ist nur eine Datenbank von mehreren in einem Data Warehouse System.


Inhaltsverzeichnis

Einsatzgebiet

Das DWH ist besonders im Bereich des Managements und im Rahmen von Entscheidungsfindungsprozessen sehr hilfreich.

Referenzarchitektur

Dies stellt den grundlegenden Aufbau eines Data Warehouse Systems dar: DWHS Referenzarchitektur

Quelle:
Vorlesungsskript, Prof. Dr. Grebner

Arbeitsbereich

Der Arbeitsbereich stellt die zentrale Datenhaltungskomponente im Datenbeschaffungsbereich dar.

Extraktionskomponente

Sie liefert die Daten aus den betroffenen Produktivdatenbanken. Der Zeitpunkt und Häufigkeit des Zugriffs ist unterschiedlich und erfolgt entweder periodisch, auf Anfrage, ereignisgesteuert oder sobald eine Änderung in der Quelldatenbank vorliegt.

Transformationskomponente

Sie vereinheitlicht die ankommenden Quelldaten bevor sie weitergeleitet werden, indem sie Datentypen anpasst, Kodierungen konvertiert, Datumsangaben und Zeichenketten vereinheitlicht, sowie Maßeinheiten umrechnet und Attributwerte kombiniert bzw. separiert.

Komponente zur Prüfung und Verbesserung der Qualität der Daten

Hier werden logisch widersprüchliche Daten ausgefiltert. Duplikate, veraltete oder unvollständige Daten erkannt und aussortiert, sowie inkorrekte Daten falls möglich verbessert.

Basisdatenbank

Im Auswertebereich spielt die Basisdatenbank eine zentrale Rolle. Sie gestattet eine integrierte Sicht auf alle Datenquellen, welche umfassend bezüglich Zeit und Granularität ist. Sie ist neutral gegenüber Auswerteanwendungen und versorgt Data Warehouses. Falls nötig übernimmt sie auch die nötigen Distributionsaufgaben.

Data Warehose

Das Data Warehouse ist eine Datenbank speziell für Analysezwecke. In Verbindung mit der Basisdatenbank und dem Repository enthält sie alle notwendigen Daten für die Analyse. Das Datenmodell ist meist multidimensional aufgebaut, wobei auch ein relationales Modell möglich sein kann. Je nach Anwendung werden die Daten häufig über Data Marts verteilt.

Data Warehouse Manager

Der Data Warehouse Manager steuert die Monitore, Extraktoren, Transformatoren und die Lade- sowie Analysekomponenten eines Data Warehouse Systems. Er ist auch für das Auslösen der Datenbeschaffungsprozesse verantwortlich.

  • regelmäßige Zeitintervalle
  • Änderungen in den Quelldatenbanken
  • explizite Anwenderanweisung

OLTP, OLAP

OLTP: Online Transaction Processing

OLTPs sind Transaktionssysteme, auf welche permanent 'schreibende' und 'ändernde' Transaktionen ausgeführt werden.

OLAP: Online Analytic Processing

OLAPs sind Analysesysteme, welche alle Daten einer Organisation verdichten und zu Analysezwecken bereitstellen. OLAP-Datenbanken werden meist 'lesend' genutzt, um Entscheidungsfindungsprozesse beim Management zu nutzen. Die Daten werden meist in Datenwürfeln, sogenannten Data Cubes abgelegt.

Eigenschaft OLTP OLAP
Anzahl zeitgleicher Benutzer Bis zu mehreren Tausend Zweistelliger Bereich
Antwortzeiten Millisekunden Sekunden bis Minuten
Zugriffssequenz sehr hoch niedrig bis mittel
Datenvolumen pro Zugriff niedrig hoch
Änderung des Datenbestandes laufend durch definierte Updates
Aktualität der Daten sofort verfügbar durch Frequenz der Updates bestimmt
Datenstrukturierung detailliert verdichtet
Kritische Faktoren Performance, Antwortzeiten, Ausfallsicherheit Datenbankgröße, strukturelle Änderungen, Datenqualität

Aufgaben

Die verschiedenen Aufgaben eines Data Warehouse Systems sind:

  • Daten werden im Zeitverlauf gespeichert
  • Daten aus verteilt vorliegenden Transaktionssystemen werden in einer Datenbank zusammengeführt
  • Schnittstellen zu den unterschiedlichsten Datenbank-Formaten sind notwendig
  • Terminierung des automatischen Datentransfers
  • Übersetzung von Daten verschiedener Datenquellen zu miteinander in Beziehung setzbaren Daten

Literatur

  • Data Warehouse Systeme – Architektur, Entwicklung,

Anwendung; A. Bauer, H. Günzel; dpunkt-Verlag; ISBN 3-89864- 251-8

  • Informationsmanagement; Voß Stefan, Gutenschwaiger, Kai;

Springer Berlin; ISBN 3-54067-807-7