Data Warehouse System
aus www.iwiki.de, der freien Wissensdatenbank
Ein Data Warehouse (DWH) stellt eine Datenbank dar, welche für spezielle Anforderungen der Datenanalyse konzipiert wurde. Das DWH ist nur eine Datenbank von mehreren in einem Data Warehouse System.
Inhaltsverzeichnis |
Einsatzgebiet
Das DWH ist besonders im Bereich des Managements und im Rahmen von Entscheidungsfindungsprozessen sehr hilfreich.
Referenzarchitektur
Dies stellt den grundlegenden Aufbau eines Data Warehouse Systems dar:
Vorlesungsskript, Prof. Dr. Grebner
Arbeitsbereich
Der Arbeitsbereich stellt die zentrale Datenhaltungskomponente im Datenbeschaffungsbereich dar.
Extraktionskomponente
Sie liefert die Daten aus den betroffenen Produktivdatenbanken. Der Zeitpunkt und Häufigkeit des Zugriffs ist unterschiedlich und erfolgt entweder periodisch, auf Anfrage, ereignisgesteuert oder sobald eine Änderung in der Quelldatenbank vorliegt.
Transformationskomponente
Sie vereinheitlicht die ankommenden Quelldaten bevor sie weitergeleitet werden, indem sie Datentypen anpasst, Kodierungen konvertiert, Datumsangaben und Zeichenketten vereinheitlicht, sowie Maßeinheiten umrechnet und Attributwerte kombiniert bzw. separiert.
Komponente zur Prüfung und Verbesserung der Qualität der Daten
Hier werden logisch widersprüchliche Daten ausgefiltert. Duplikate, veraltete oder unvollständige Daten erkannt und aussortiert, sowie inkorrekte Daten falls möglich verbessert.
Basisdatenbank
Im Auswertebereich spielt die Basisdatenbank eine zentrale Rolle. Sie gestattet eine integrierte Sicht auf alle Datenquellen, welche umfassend bezüglich Zeit und Granularität ist. Sie ist neutral gegenüber Auswerteanwendungen und versorgt Data Warehouses. Falls nötig übernimmt sie auch die nötigen Distributionsaufgaben.
Data Warehose
Das Data Warehouse ist eine Datenbank speziell für Analysezwecke. In Verbindung mit der Basisdatenbank und dem Repository enthält sie alle notwendigen Daten für die Analyse. Das Datenmodell ist meist multidimensional aufgebaut, wobei auch ein relationales Modell möglich sein kann. Je nach Anwendung werden die Daten häufig über Data Marts verteilt.
Data Warehouse Manager
Der Data Warehouse Manager steuert die Monitore, Extraktoren, Transformatoren und die Lade- sowie Analysekomponenten eines Data Warehouse Systems. Er ist auch für das Auslösen der Datenbeschaffungsprozesse verantwortlich.
- regelmäßige Zeitintervalle
- Änderungen in den Quelldatenbanken
- explizite Anwenderanweisung
OLTP, OLAP
OLTP: Online Transaction Processing
OLTPs sind Transaktionssysteme, auf welche permanent 'schreibende' und 'ändernde' Transaktionen ausgeführt werden.
OLAP: Online Analytic Processing
OLAPs sind Analysesysteme, welche alle Daten einer Organisation verdichten und zu Analysezwecken bereitstellen. OLAP-Datenbanken werden meist 'lesend' genutzt, um Entscheidungsfindungsprozesse beim Management zu nutzen. Die Daten werden meist in Datenwürfeln, sogenannten Data Cubes abgelegt.
| Eigenschaft | OLTP | OLAP |
|---|---|---|
| Anzahl zeitgleicher Benutzer | Bis zu mehreren Tausend | Zweistelliger Bereich |
| Antwortzeiten | Millisekunden | Sekunden bis Minuten |
| Zugriffssequenz | sehr hoch | niedrig bis mittel |
| Datenvolumen pro Zugriff | niedrig | hoch |
| Änderung des Datenbestandes | laufend | durch definierte Updates |
| Aktualität der Daten | sofort verfügbar | durch Frequenz der Updates bestimmt |
| Datenstrukturierung | detailliert | verdichtet |
| Kritische Faktoren | Performance, Antwortzeiten, Ausfallsicherheit | Datenbankgröße, strukturelle Änderungen, Datenqualität |
Aufgaben
Die verschiedenen Aufgaben eines Data Warehouse Systems sind:
- Daten werden im Zeitverlauf gespeichert
- Daten aus verteilt vorliegenden Transaktionssystemen werden in einer Datenbank zusammengeführt
- Schnittstellen zu den unterschiedlichsten Datenbank-Formaten sind notwendig
- Terminierung des automatischen Datentransfers
- Übersetzung von Daten verschiedener Datenquellen zu miteinander in Beziehung setzbaren Daten
Literatur
- Data Warehouse Systeme – Architektur, Entwicklung,
Anwendung; A. Bauer, H. Günzel; dpunkt-Verlag; ISBN 3-89864- 251-8
- Informationsmanagement; Voß Stefan, Gutenschwaiger, Kai;
Springer Berlin; ISBN 3-54067-807-7
