mirror of
https://github.com/theoleuthardt/hwr-notes.git
synced 2026-06-06 01:21:09 +00:00
5.6 KiB
5.6 KiB
Data Warehouse Konzepte – Zusammenfassung
Dozent: A. Zimmermann | HWR Berlin | 2026 | Folien 1–19
1. Konzepte (Folie 2)
Drei Verarbeitungsarten:
- Batch-Verarbeitung – klassische Stapelverarbeitung
- OLTP = Online Transaction Processing – Tagesgeschäft
- OLAP = Online Analytical Processing – Analyse und Auswertung
OLAP-Systeme sind unverzichtbare Instrumente zur Analyse umfangreicher und mehrdimensionaler Daten. Sie gewähren anwendungsspezifische Sichten und werden primär von Managern unterschiedlicher Ebenen verwendet.
2. OLAP (Folien 3–5)
Gründe für OLAP
- Trennung von Tagesgeschäft und Auswertungen
- Historisierte Daten mit Zeitraum-Bezug
- Große Mengen von Nur-Lese-Daten (Permanenz)
- Multidimensionale Datenmodelle
- Gezielte Denormalisierung des ganzen Modells
Eigenschaften von OLAP
- Intuitive und interaktive Analyse der Daten
- Flexible Darstellung aus unterschiedlichen Perspektiven
- Basis: Hypercube (kartesisches Produkt)
- Besondere Operationen: Rotation, Slice, Dice, Drill-Through, Drill-Across, Roll-Up, Drill-Down
- Clients: Spezielle Programme oder Tabellenkalkulationstools (z.B. Excel)
Data Warehouse als OLAP-Datenbank dient:
- Unterstützung strategischer Entscheidungen
- Analyse von Tendenzen und Mustern über große Zeiträume
- Bessere Entscheidungen durch bessere Informationen
- Flexiblere Analysemöglichkeiten
- Verlagerung der Analyse in Fachabteilungen
- Geringere Berichterstellungskosten
- Gemeinsame Informationsbasis im Unternehmen
3. ROLAP und MOLAP (Folien 6–8)
ROLAP – Relationales OLAP
- Basiert auf relationalen Datenbanken (Oracle, DB2)
- Verwendet Star-Schema (Fakten- und Dimensionstabellen, 3NF bei Dimensionstabellen verletzt) und Snowflake-Schema (normalisiert)
- Für hohes Datenvorkommen und große Nutzerzahlen geeignet
Vorteile:
- Bewährte relationale Technologien für Abfragen, Verwaltung, Speicherung, Recovery, Archivierung
- Sperrmechanismen und Transaktionen nicht benötigt
Nachteile:
- Umfangreiche JOINs, Indizes, Table Scans nötig
- Umfangreiche Aggregationen und Berechnungen
MOLAP – Multidimensionales OLAP
- Basiert auf herstellerspezifischen Datenbanken
- Optimiert für hohe Performance in multidimensionalen Datenstrukturen
- Schnelle Aggregationen
Vorteile:
- Hohe Performance
- Am multidimensionalen Modell ausgerichtet
Nachteile:
- Hoher Schulungsaufwand
- Proprietäre Verwaltung
- Oft fehlende Standardschnittstellen
HOLAP – Hybrides OLAP
- Variante aus ROLAP und MOLAP
4. Lebenszyklus eines Data Warehouse (Folien 9–13)
Schritt A – Planung
- Analyse von Architektur und Infrastruktur
- Definition der Ressourcen und Zeitvorgaben
- Archivierungsstrategien
- Verbindungsmöglichkeiten und Ladeprogramme
Schritt B – Spezifikation & Modellierung
- Ermittlung der Entitäten und Attribute
- Geschäftsprozesse und -anwendungsfälle identifizieren
- Ein-/Ausgabedaten und Detailierungsgrad festlegen
- Logisches Datenmodell entsteht
Schritt C – Physischer Datenbankentwurf
- Star-Schema / Snowflake-Schema entwerfen
- Aufheben der Normalisierung
- Schlüssel, Indizierungsstrategien, Partitionierung festlegen
Schritt D – Befüllen des DWH
- Definition der Quellsysteme
- Umformungsspezifikationen
- Aktualisierungszyklus festlegen
- ETL-Prozeduren definieren und testen
- Automatisierung der Ladevorgänge, Backup- und Recovery-Prozeduren
- Anwendungsentwicklung (Berichte, Dokumentation, Test)
Schritt E – Betrieb
- Test und Überprüfung der Daten
- Schulung, Produktabnahme, Wartung
- Verbesserungen und Weiterentwicklung
- Performance-Untersuchungen
5. Vergleich OLTP und OLAP (Folie 14)
| Merkmal | OLTP | OLAP |
|---|---|---|
| Abfragen | Vorhersehbar, einzelne Datensätze | Komplex, unvorhersehbar |
| Daten | Ständige Änderungen | Statisch, unveränderbar |
| Datenstruktur | Normalisiertes Modell (nur notwendige Redundanz) | Denormalisiertes Modell (verständlich) |
| Fokus | Hohe Transaktionsrate | Aggregation – viele Fakten zu einem Fakt |
6. ETL – Extract, Transform, Load (Folie 15)
Extraktion
- Periodischer, ereignisgesteuerter oder anfragegesteuerter Abzug
- Komplette oder Delta-Übertragungen
- Protokollierung der Änderungen und Übertragungen
Transformation (im Arbeitsbereich)
- Datentypkonvertierung
- Wertumsetzung
- Schlüsselvergabe, -anpassung, -bereinigung
- Zeitstempelvergabe
- Datenverdichtung, -bereinigung
Laden
- Übertragung der Daten aus dem Arbeitsbereich in das Data Warehouse
7. Funktionsweise – Hypercube-Operationen (Folien 16–17)
Grundlage: Mehrdimensionaler Hypercube mit Dimensionen wie Zeitperioden, Produkte, Abteilungen und Werten wie Absatzvolumen.
Navigationsoperationen
- Rotation – Auswahl zweier konkreter Dimensionen (Drehung des Würfels)
- Slice – Voller zweidimensionaler Ausschnitt aus dem Würfel
- Dice – Mehrdimensionaler Ausschnitt (Untermenge, kleiner Würfel)
- Drill-Across – Verbindung mehrerer Würfel gleicher Dimension zu einer Kette
Hierarchische Navigation
- Drill-Down – Von oberer zu tieferer Ebene der Hierarchie
- Roll-Up – Von tieferer zu oberer Ebene der Hierarchie
- Drill-Through – Wenn Drill-Down nicht mehr möglich, wird neue Datenquelle (Würfel) angeschlossen
8. Varianten (Folie 18)
- Data Marts – Begrenzter Anwendungsbereich (z.B. eine Abteilung). Einfacher einzurichten als DWH, aber Konsistenzprobleme bei mehreren Data Marts
- Operation Data Stores – Für aktuelle (tägliche) Auswertungen, unterstützen kaum langfristige Abfragen