hwr-notes/Datenbanken/Zusammenfassungen/i_DWKonzepte - zusammenfassung.md
2026-04-09 11:24:56 +02:00

5.6 KiB
Raw Blame History

Data Warehouse Konzepte Zusammenfassung

Dozent: A. Zimmermann | HWR Berlin | 2026 | Folien 119


1. Konzepte (Folie 2)

Drei Verarbeitungsarten:

  • Batch-Verarbeitung klassische Stapelverarbeitung
  • OLTP = Online Transaction Processing Tagesgeschäft
  • OLAP = Online Analytical Processing Analyse und Auswertung

OLAP-Systeme sind unverzichtbare Instrumente zur Analyse umfangreicher und mehrdimensionaler Daten. Sie gewähren anwendungsspezifische Sichten und werden primär von Managern unterschiedlicher Ebenen verwendet.


2. OLAP (Folien 35)

Gründe für OLAP

  • Trennung von Tagesgeschäft und Auswertungen
  • Historisierte Daten mit Zeitraum-Bezug
  • Große Mengen von Nur-Lese-Daten (Permanenz)
  • Multidimensionale Datenmodelle
  • Gezielte Denormalisierung des ganzen Modells

Eigenschaften von OLAP

  • Intuitive und interaktive Analyse der Daten
  • Flexible Darstellung aus unterschiedlichen Perspektiven
  • Basis: Hypercube (kartesisches Produkt)
  • Besondere Operationen: Rotation, Slice, Dice, Drill-Through, Drill-Across, Roll-Up, Drill-Down
  • Clients: Spezielle Programme oder Tabellenkalkulationstools (z.B. Excel)

Data Warehouse als OLAP-Datenbank dient:

  • Unterstützung strategischer Entscheidungen
  • Analyse von Tendenzen und Mustern über große Zeiträume
  • Bessere Entscheidungen durch bessere Informationen
  • Flexiblere Analysemöglichkeiten
  • Verlagerung der Analyse in Fachabteilungen
  • Geringere Berichterstellungskosten
  • Gemeinsame Informationsbasis im Unternehmen

3. ROLAP und MOLAP (Folien 68)

ROLAP Relationales OLAP

  • Basiert auf relationalen Datenbanken (Oracle, DB2)
  • Verwendet Star-Schema (Fakten- und Dimensionstabellen, 3NF bei Dimensionstabellen verletzt) und Snowflake-Schema (normalisiert)
  • Für hohes Datenvorkommen und große Nutzerzahlen geeignet

Vorteile:

  • Bewährte relationale Technologien für Abfragen, Verwaltung, Speicherung, Recovery, Archivierung
  • Sperrmechanismen und Transaktionen nicht benötigt

Nachteile:

  • Umfangreiche JOINs, Indizes, Table Scans nötig
  • Umfangreiche Aggregationen und Berechnungen

MOLAP Multidimensionales OLAP

  • Basiert auf herstellerspezifischen Datenbanken
  • Optimiert für hohe Performance in multidimensionalen Datenstrukturen
  • Schnelle Aggregationen

Vorteile:

  • Hohe Performance
  • Am multidimensionalen Modell ausgerichtet

Nachteile:

  • Hoher Schulungsaufwand
  • Proprietäre Verwaltung
  • Oft fehlende Standardschnittstellen

HOLAP Hybrides OLAP

  • Variante aus ROLAP und MOLAP

4. Lebenszyklus eines Data Warehouse (Folien 913)

Schritt A Planung

  • Analyse von Architektur und Infrastruktur
  • Definition der Ressourcen und Zeitvorgaben
  • Archivierungsstrategien
  • Verbindungsmöglichkeiten und Ladeprogramme

Schritt B Spezifikation & Modellierung

  • Ermittlung der Entitäten und Attribute
  • Geschäftsprozesse und -anwendungsfälle identifizieren
  • Ein-/Ausgabedaten und Detailierungsgrad festlegen
  • Logisches Datenmodell entsteht

Schritt C Physischer Datenbankentwurf

  • Star-Schema / Snowflake-Schema entwerfen
  • Aufheben der Normalisierung
  • Schlüssel, Indizierungsstrategien, Partitionierung festlegen

Schritt D Befüllen des DWH

  • Definition der Quellsysteme
  • Umformungsspezifikationen
  • Aktualisierungszyklus festlegen
  • ETL-Prozeduren definieren und testen
  • Automatisierung der Ladevorgänge, Backup- und Recovery-Prozeduren
  • Anwendungsentwicklung (Berichte, Dokumentation, Test)

Schritt E Betrieb

  • Test und Überprüfung der Daten
  • Schulung, Produktabnahme, Wartung
  • Verbesserungen und Weiterentwicklung
  • Performance-Untersuchungen

5. Vergleich OLTP und OLAP (Folie 14)

Merkmal OLTP OLAP
Abfragen Vorhersehbar, einzelne Datensätze Komplex, unvorhersehbar
Daten Ständige Änderungen Statisch, unveränderbar
Datenstruktur Normalisiertes Modell (nur notwendige Redundanz) Denormalisiertes Modell (verständlich)
Fokus Hohe Transaktionsrate Aggregation viele Fakten zu einem Fakt

6. ETL Extract, Transform, Load (Folie 15)

Extraktion

  • Periodischer, ereignisgesteuerter oder anfragegesteuerter Abzug
  • Komplette oder Delta-Übertragungen
  • Protokollierung der Änderungen und Übertragungen

Transformation (im Arbeitsbereich)

  • Datentypkonvertierung
  • Wertumsetzung
  • Schlüsselvergabe, -anpassung, -bereinigung
  • Zeitstempelvergabe
  • Datenverdichtung, -bereinigung

Laden

  • Übertragung der Daten aus dem Arbeitsbereich in das Data Warehouse

7. Funktionsweise Hypercube-Operationen (Folien 1617)

Grundlage: Mehrdimensionaler Hypercube mit Dimensionen wie Zeitperioden, Produkte, Abteilungen und Werten wie Absatzvolumen.

Navigationsoperationen

  • Rotation Auswahl zweier konkreter Dimensionen (Drehung des Würfels)
  • Slice Voller zweidimensionaler Ausschnitt aus dem Würfel
  • Dice Mehrdimensionaler Ausschnitt (Untermenge, kleiner Würfel)
  • Drill-Across Verbindung mehrerer Würfel gleicher Dimension zu einer Kette

Hierarchische Navigation

  • Drill-Down Von oberer zu tieferer Ebene der Hierarchie
  • Roll-Up Von tieferer zu oberer Ebene der Hierarchie
  • Drill-Through Wenn Drill-Down nicht mehr möglich, wird neue Datenquelle (Würfel) angeschlossen

8. Varianten (Folie 18)

  • Data Marts Begrenzter Anwendungsbereich (z.B. eine Abteilung). Einfacher einzurichten als DWH, aber Konsistenzprobleme bei mehreren Data Marts
  • Operation Data Stores Für aktuelle (tägliche) Auswertungen, unterstützen kaum langfristige Abfragen