mirror of
https://github.com/theoleuthardt/hwr-notes.git
synced 2026-06-06 01:21:09 +00:00
163 lines
5.6 KiB
Markdown
163 lines
5.6 KiB
Markdown
# Data Warehouse Konzepte – Zusammenfassung
|
||
**Dozent:** A. Zimmermann | HWR Berlin | 2026 | **Folien 1–19**
|
||
|
||
---
|
||
|
||
## 1. Konzepte (Folie 2)
|
||
|
||
Drei Verarbeitungsarten:
|
||
- **Batch-Verarbeitung** – klassische Stapelverarbeitung
|
||
- **OLTP** = Online Transaction Processing – Tagesgeschäft
|
||
- **OLAP** = Online Analytical Processing – Analyse und Auswertung
|
||
|
||
OLAP-Systeme sind unverzichtbare Instrumente zur **Analyse umfangreicher und mehrdimensionaler Daten**. Sie gewähren anwendungsspezifische Sichten und werden primär von **Managern unterschiedlicher Ebenen** verwendet.
|
||
|
||
---
|
||
|
||
## 2. OLAP (Folien 3–5)
|
||
|
||
### Gründe für OLAP
|
||
- Trennung von Tagesgeschäft und Auswertungen
|
||
- Historisierte Daten mit Zeitraum-Bezug
|
||
- Große Mengen von **Nur-Lese-Daten** (Permanenz)
|
||
- **Multidimensionale Datenmodelle**
|
||
- Gezielte **Denormalisierung** des ganzen Modells
|
||
|
||
### Eigenschaften von OLAP
|
||
- Intuitive und interaktive Analyse der Daten
|
||
- Flexible Darstellung aus unterschiedlichen Perspektiven
|
||
- Basis: **Hypercube** (kartesisches Produkt)
|
||
- Besondere Operationen: Rotation, Slice, Dice, Drill-Through, Drill-Across, Roll-Up, Drill-Down
|
||
- Clients: Spezielle Programme oder Tabellenkalkulationstools (z.B. Excel)
|
||
|
||
### Data Warehouse als OLAP-Datenbank dient:
|
||
- Unterstützung strategischer Entscheidungen
|
||
- Analyse von Tendenzen und Mustern über große Zeiträume
|
||
- Bessere Entscheidungen durch bessere Informationen
|
||
- Flexiblere Analysemöglichkeiten
|
||
- Verlagerung der Analyse in Fachabteilungen
|
||
- Geringere Berichterstellungskosten
|
||
- Gemeinsame Informationsbasis im Unternehmen
|
||
|
||
---
|
||
|
||
## 3. ROLAP und MOLAP (Folien 6–8)
|
||
|
||
### ROLAP – Relationales OLAP
|
||
- Basiert auf **relationalen Datenbanken** (Oracle, DB2)
|
||
- Verwendet **Star-Schema** (Fakten- und Dimensionstabellen, 3NF bei Dimensionstabellen verletzt) und **Snowflake-Schema** (normalisiert)
|
||
- Für hohes Datenvorkommen und große Nutzerzahlen geeignet
|
||
|
||
**Vorteile:**
|
||
- Bewährte relationale Technologien für Abfragen, Verwaltung, Speicherung, Recovery, Archivierung
|
||
- Sperrmechanismen und Transaktionen nicht benötigt
|
||
|
||
**Nachteile:**
|
||
- Umfangreiche JOINs, Indizes, Table Scans nötig
|
||
- Umfangreiche Aggregationen und Berechnungen
|
||
|
||
### MOLAP – Multidimensionales OLAP
|
||
- Basiert auf **herstellerspezifischen Datenbanken**
|
||
- Optimiert für hohe Performance in multidimensionalen Datenstrukturen
|
||
- Schnelle Aggregationen
|
||
|
||
**Vorteile:**
|
||
- Hohe Performance
|
||
- Am multidimensionalen Modell ausgerichtet
|
||
|
||
**Nachteile:**
|
||
- Hoher Schulungsaufwand
|
||
- Proprietäre Verwaltung
|
||
- Oft fehlende Standardschnittstellen
|
||
|
||
### HOLAP – Hybrides OLAP
|
||
- Variante aus ROLAP und MOLAP
|
||
|
||
---
|
||
|
||
## 4. Lebenszyklus eines Data Warehouse (Folien 9–13)
|
||
|
||
### Schritt A – Planung
|
||
- Analyse von Architektur und Infrastruktur
|
||
- Definition der Ressourcen und Zeitvorgaben
|
||
- Archivierungsstrategien
|
||
- Verbindungsmöglichkeiten und Ladeprogramme
|
||
|
||
### Schritt B – Spezifikation & Modellierung
|
||
- Ermittlung der Entitäten und Attribute
|
||
- Geschäftsprozesse und -anwendungsfälle identifizieren
|
||
- Ein-/Ausgabedaten und Detailierungsgrad festlegen
|
||
- **Logisches Datenmodell** entsteht
|
||
|
||
### Schritt C – Physischer Datenbankentwurf
|
||
- Star-Schema / Snowflake-Schema entwerfen
|
||
- Aufheben der Normalisierung
|
||
- Schlüssel, Indizierungsstrategien, Partitionierung festlegen
|
||
|
||
### Schritt D – Befüllen des DWH
|
||
- Definition der Quellsysteme
|
||
- Umformungsspezifikationen
|
||
- Aktualisierungszyklus festlegen
|
||
- **ETL-Prozeduren** definieren und testen
|
||
- Automatisierung der Ladevorgänge, Backup- und Recovery-Prozeduren
|
||
- Anwendungsentwicklung (Berichte, Dokumentation, Test)
|
||
|
||
### Schritt E – Betrieb
|
||
- Test und Überprüfung der Daten
|
||
- Schulung, Produktabnahme, Wartung
|
||
- Verbesserungen und Weiterentwicklung
|
||
- Performance-Untersuchungen
|
||
|
||
---
|
||
|
||
## 5. Vergleich OLTP und OLAP (Folie 14)
|
||
|
||
| Merkmal | OLTP | OLAP |
|
||
|---|---|---|
|
||
| Abfragen | Vorhersehbar, einzelne Datensätze | Komplex, unvorhersehbar |
|
||
| Daten | Ständige Änderungen | Statisch, unveränderbar |
|
||
| Datenstruktur | Normalisiertes Modell (nur notwendige Redundanz) | Denormalisiertes Modell (verständlich) |
|
||
| Fokus | Hohe Transaktionsrate | Aggregation – viele Fakten zu einem Fakt |
|
||
|
||
---
|
||
|
||
## 6. ETL – Extract, Transform, Load (Folie 15)
|
||
|
||
### Extraktion
|
||
- Periodischer, ereignisgesteuerter oder anfragegesteuerter Abzug
|
||
- Komplette oder Delta-Übertragungen
|
||
- Protokollierung der Änderungen und Übertragungen
|
||
|
||
### Transformation (im Arbeitsbereich)
|
||
- Datentypkonvertierung
|
||
- Wertumsetzung
|
||
- Schlüsselvergabe, -anpassung, -bereinigung
|
||
- Zeitstempelvergabe
|
||
- Datenverdichtung, -bereinigung
|
||
|
||
### Laden
|
||
- Übertragung der Daten aus dem Arbeitsbereich in das Data Warehouse
|
||
|
||
---
|
||
|
||
## 7. Funktionsweise – Hypercube-Operationen (Folien 16–17)
|
||
|
||
Grundlage: **Mehrdimensionaler Hypercube** mit Dimensionen wie Zeitperioden, Produkte, Abteilungen und Werten wie Absatzvolumen.
|
||
|
||
### Navigationsoperationen
|
||
- **Rotation** – Auswahl zweier konkreter Dimensionen (Drehung des Würfels)
|
||
- **Slice** – Voller zweidimensionaler Ausschnitt aus dem Würfel
|
||
- **Dice** – Mehrdimensionaler Ausschnitt (Untermenge, kleiner Würfel)
|
||
- **Drill-Across** – Verbindung mehrerer Würfel gleicher Dimension zu einer Kette
|
||
|
||
### Hierarchische Navigation
|
||
- **Drill-Down** – Von oberer zu tieferer Ebene der Hierarchie
|
||
- **Roll-Up** – Von tieferer zu oberer Ebene der Hierarchie
|
||
- **Drill-Through** – Wenn Drill-Down nicht mehr möglich, wird neue Datenquelle (Würfel) angeschlossen
|
||
|
||
---
|
||
|
||
## 8. Varianten (Folie 18)
|
||
|
||
- **Data Marts** – Begrenzter Anwendungsbereich (z.B. eine Abteilung). Einfacher einzurichten als DWH, aber Konsistenzprobleme bei mehreren Data Marts
|
||
- **Operation Data Stores** – Für aktuelle (tägliche) Auswertungen, unterstützen kaum langfristige Abfragen
|