# Data Warehouse Konzepte – Zusammenfassung **Dozent:** A. Zimmermann | HWR Berlin | 2026 | **Folien 1–19** --- ## 1. Konzepte (Folie 2) Drei Verarbeitungsarten: - **Batch-Verarbeitung** – klassische Stapelverarbeitung - **OLTP** = Online Transaction Processing – Tagesgeschäft - **OLAP** = Online Analytical Processing – Analyse und Auswertung OLAP-Systeme sind unverzichtbare Instrumente zur **Analyse umfangreicher und mehrdimensionaler Daten**. Sie gewähren anwendungsspezifische Sichten und werden primär von **Managern unterschiedlicher Ebenen** verwendet. --- ## 2. OLAP (Folien 3–5) ### Gründe für OLAP - Trennung von Tagesgeschäft und Auswertungen - Historisierte Daten mit Zeitraum-Bezug - Große Mengen von **Nur-Lese-Daten** (Permanenz) - **Multidimensionale Datenmodelle** - Gezielte **Denormalisierung** des ganzen Modells ### Eigenschaften von OLAP - Intuitive und interaktive Analyse der Daten - Flexible Darstellung aus unterschiedlichen Perspektiven - Basis: **Hypercube** (kartesisches Produkt) - Besondere Operationen: Rotation, Slice, Dice, Drill-Through, Drill-Across, Roll-Up, Drill-Down - Clients: Spezielle Programme oder Tabellenkalkulationstools (z.B. Excel) ### Data Warehouse als OLAP-Datenbank dient: - Unterstützung strategischer Entscheidungen - Analyse von Tendenzen und Mustern über große Zeiträume - Bessere Entscheidungen durch bessere Informationen - Flexiblere Analysemöglichkeiten - Verlagerung der Analyse in Fachabteilungen - Geringere Berichterstellungskosten - Gemeinsame Informationsbasis im Unternehmen --- ## 3. ROLAP und MOLAP (Folien 6–8) ### ROLAP – Relationales OLAP - Basiert auf **relationalen Datenbanken** (Oracle, DB2) - Verwendet **Star-Schema** (Fakten- und Dimensionstabellen, 3NF bei Dimensionstabellen verletzt) und **Snowflake-Schema** (normalisiert) - Für hohes Datenvorkommen und große Nutzerzahlen geeignet **Vorteile:** - Bewährte relationale Technologien für Abfragen, Verwaltung, Speicherung, Recovery, Archivierung - Sperrmechanismen und Transaktionen nicht benötigt **Nachteile:** - Umfangreiche JOINs, Indizes, Table Scans nötig - Umfangreiche Aggregationen und Berechnungen ### MOLAP – Multidimensionales OLAP - Basiert auf **herstellerspezifischen Datenbanken** - Optimiert für hohe Performance in multidimensionalen Datenstrukturen - Schnelle Aggregationen **Vorteile:** - Hohe Performance - Am multidimensionalen Modell ausgerichtet **Nachteile:** - Hoher Schulungsaufwand - Proprietäre Verwaltung - Oft fehlende Standardschnittstellen ### HOLAP – Hybrides OLAP - Variante aus ROLAP und MOLAP --- ## 4. Lebenszyklus eines Data Warehouse (Folien 9–13) ### Schritt A – Planung - Analyse von Architektur und Infrastruktur - Definition der Ressourcen und Zeitvorgaben - Archivierungsstrategien - Verbindungsmöglichkeiten und Ladeprogramme ### Schritt B – Spezifikation & Modellierung - Ermittlung der Entitäten und Attribute - Geschäftsprozesse und -anwendungsfälle identifizieren - Ein-/Ausgabedaten und Detailierungsgrad festlegen - **Logisches Datenmodell** entsteht ### Schritt C – Physischer Datenbankentwurf - Star-Schema / Snowflake-Schema entwerfen - Aufheben der Normalisierung - Schlüssel, Indizierungsstrategien, Partitionierung festlegen ### Schritt D – Befüllen des DWH - Definition der Quellsysteme - Umformungsspezifikationen - Aktualisierungszyklus festlegen - **ETL-Prozeduren** definieren und testen - Automatisierung der Ladevorgänge, Backup- und Recovery-Prozeduren - Anwendungsentwicklung (Berichte, Dokumentation, Test) ### Schritt E – Betrieb - Test und Überprüfung der Daten - Schulung, Produktabnahme, Wartung - Verbesserungen und Weiterentwicklung - Performance-Untersuchungen --- ## 5. Vergleich OLTP und OLAP (Folie 14) | Merkmal | OLTP | OLAP | |---|---|---| | Abfragen | Vorhersehbar, einzelne Datensätze | Komplex, unvorhersehbar | | Daten | Ständige Änderungen | Statisch, unveränderbar | | Datenstruktur | Normalisiertes Modell (nur notwendige Redundanz) | Denormalisiertes Modell (verständlich) | | Fokus | Hohe Transaktionsrate | Aggregation – viele Fakten zu einem Fakt | --- ## 6. ETL – Extract, Transform, Load (Folie 15) ### Extraktion - Periodischer, ereignisgesteuerter oder anfragegesteuerter Abzug - Komplette oder Delta-Übertragungen - Protokollierung der Änderungen und Übertragungen ### Transformation (im Arbeitsbereich) - Datentypkonvertierung - Wertumsetzung - Schlüsselvergabe, -anpassung, -bereinigung - Zeitstempelvergabe - Datenverdichtung, -bereinigung ### Laden - Übertragung der Daten aus dem Arbeitsbereich in das Data Warehouse --- ## 7. Funktionsweise – Hypercube-Operationen (Folien 16–17) Grundlage: **Mehrdimensionaler Hypercube** mit Dimensionen wie Zeitperioden, Produkte, Abteilungen und Werten wie Absatzvolumen. ### Navigationsoperationen - **Rotation** – Auswahl zweier konkreter Dimensionen (Drehung des Würfels) - **Slice** – Voller zweidimensionaler Ausschnitt aus dem Würfel - **Dice** – Mehrdimensionaler Ausschnitt (Untermenge, kleiner Würfel) - **Drill-Across** – Verbindung mehrerer Würfel gleicher Dimension zu einer Kette ### Hierarchische Navigation - **Drill-Down** – Von oberer zu tieferer Ebene der Hierarchie - **Roll-Up** – Von tieferer zu oberer Ebene der Hierarchie - **Drill-Through** – Wenn Drill-Down nicht mehr möglich, wird neue Datenquelle (Würfel) angeschlossen --- ## 8. Varianten (Folie 18) - **Data Marts** – Begrenzter Anwendungsbereich (z.B. eine Abteilung). Einfacher einzurichten als DWH, aber Konsistenzprobleme bei mehreren Data Marts - **Operation Data Stores** – Für aktuelle (tägliche) Auswertungen, unterstützen kaum langfristige Abfragen