docs: add obsidian hwr docs

This commit is contained in:
theoleuthardt 2026-04-09 11:24:56 +02:00
parent b2636f4b92
commit 850aa3455d
245 changed files with 30757 additions and 0 deletions

View file

@ -0,0 +1,163 @@
# Data Warehouse Konzepte Zusammenfassung
**Dozent:** A. Zimmermann | HWR Berlin | 2026 | **Folien 119**
---
## 1. Konzepte (Folie 2)
Drei Verarbeitungsarten:
- **Batch-Verarbeitung** klassische Stapelverarbeitung
- **OLTP** = Online Transaction Processing Tagesgeschäft
- **OLAP** = Online Analytical Processing Analyse und Auswertung
OLAP-Systeme sind unverzichtbare Instrumente zur **Analyse umfangreicher und mehrdimensionaler Daten**. Sie gewähren anwendungsspezifische Sichten und werden primär von **Managern unterschiedlicher Ebenen** verwendet.
---
## 2. OLAP (Folien 35)
### Gründe für OLAP
- Trennung von Tagesgeschäft und Auswertungen
- Historisierte Daten mit Zeitraum-Bezug
- Große Mengen von **Nur-Lese-Daten** (Permanenz)
- **Multidimensionale Datenmodelle**
- Gezielte **Denormalisierung** des ganzen Modells
### Eigenschaften von OLAP
- Intuitive und interaktive Analyse der Daten
- Flexible Darstellung aus unterschiedlichen Perspektiven
- Basis: **Hypercube** (kartesisches Produkt)
- Besondere Operationen: Rotation, Slice, Dice, Drill-Through, Drill-Across, Roll-Up, Drill-Down
- Clients: Spezielle Programme oder Tabellenkalkulationstools (z.B. Excel)
### Data Warehouse als OLAP-Datenbank dient:
- Unterstützung strategischer Entscheidungen
- Analyse von Tendenzen und Mustern über große Zeiträume
- Bessere Entscheidungen durch bessere Informationen
- Flexiblere Analysemöglichkeiten
- Verlagerung der Analyse in Fachabteilungen
- Geringere Berichterstellungskosten
- Gemeinsame Informationsbasis im Unternehmen
---
## 3. ROLAP und MOLAP (Folien 68)
### ROLAP Relationales OLAP
- Basiert auf **relationalen Datenbanken** (Oracle, DB2)
- Verwendet **Star-Schema** (Fakten- und Dimensionstabellen, 3NF bei Dimensionstabellen verletzt) und **Snowflake-Schema** (normalisiert)
- Für hohes Datenvorkommen und große Nutzerzahlen geeignet
**Vorteile:**
- Bewährte relationale Technologien für Abfragen, Verwaltung, Speicherung, Recovery, Archivierung
- Sperrmechanismen und Transaktionen nicht benötigt
**Nachteile:**
- Umfangreiche JOINs, Indizes, Table Scans nötig
- Umfangreiche Aggregationen und Berechnungen
### MOLAP Multidimensionales OLAP
- Basiert auf **herstellerspezifischen Datenbanken**
- Optimiert für hohe Performance in multidimensionalen Datenstrukturen
- Schnelle Aggregationen
**Vorteile:**
- Hohe Performance
- Am multidimensionalen Modell ausgerichtet
**Nachteile:**
- Hoher Schulungsaufwand
- Proprietäre Verwaltung
- Oft fehlende Standardschnittstellen
### HOLAP Hybrides OLAP
- Variante aus ROLAP und MOLAP
---
## 4. Lebenszyklus eines Data Warehouse (Folien 913)
### Schritt A Planung
- Analyse von Architektur und Infrastruktur
- Definition der Ressourcen und Zeitvorgaben
- Archivierungsstrategien
- Verbindungsmöglichkeiten und Ladeprogramme
### Schritt B Spezifikation & Modellierung
- Ermittlung der Entitäten und Attribute
- Geschäftsprozesse und -anwendungsfälle identifizieren
- Ein-/Ausgabedaten und Detailierungsgrad festlegen
- **Logisches Datenmodell** entsteht
### Schritt C Physischer Datenbankentwurf
- Star-Schema / Snowflake-Schema entwerfen
- Aufheben der Normalisierung
- Schlüssel, Indizierungsstrategien, Partitionierung festlegen
### Schritt D Befüllen des DWH
- Definition der Quellsysteme
- Umformungsspezifikationen
- Aktualisierungszyklus festlegen
- **ETL-Prozeduren** definieren und testen
- Automatisierung der Ladevorgänge, Backup- und Recovery-Prozeduren
- Anwendungsentwicklung (Berichte, Dokumentation, Test)
### Schritt E Betrieb
- Test und Überprüfung der Daten
- Schulung, Produktabnahme, Wartung
- Verbesserungen und Weiterentwicklung
- Performance-Untersuchungen
---
## 5. Vergleich OLTP und OLAP (Folie 14)
| Merkmal | OLTP | OLAP |
|---|---|---|
| Abfragen | Vorhersehbar, einzelne Datensätze | Komplex, unvorhersehbar |
| Daten | Ständige Änderungen | Statisch, unveränderbar |
| Datenstruktur | Normalisiertes Modell (nur notwendige Redundanz) | Denormalisiertes Modell (verständlich) |
| Fokus | Hohe Transaktionsrate | Aggregation viele Fakten zu einem Fakt |
---
## 6. ETL Extract, Transform, Load (Folie 15)
### Extraktion
- Periodischer, ereignisgesteuerter oder anfragegesteuerter Abzug
- Komplette oder Delta-Übertragungen
- Protokollierung der Änderungen und Übertragungen
### Transformation (im Arbeitsbereich)
- Datentypkonvertierung
- Wertumsetzung
- Schlüsselvergabe, -anpassung, -bereinigung
- Zeitstempelvergabe
- Datenverdichtung, -bereinigung
### Laden
- Übertragung der Daten aus dem Arbeitsbereich in das Data Warehouse
---
## 7. Funktionsweise Hypercube-Operationen (Folien 1617)
Grundlage: **Mehrdimensionaler Hypercube** mit Dimensionen wie Zeitperioden, Produkte, Abteilungen und Werten wie Absatzvolumen.
### Navigationsoperationen
- **Rotation** Auswahl zweier konkreter Dimensionen (Drehung des Würfels)
- **Slice** Voller zweidimensionaler Ausschnitt aus dem Würfel
- **Dice** Mehrdimensionaler Ausschnitt (Untermenge, kleiner Würfel)
- **Drill-Across** Verbindung mehrerer Würfel gleicher Dimension zu einer Kette
### Hierarchische Navigation
- **Drill-Down** Von oberer zu tieferer Ebene der Hierarchie
- **Roll-Up** Von tieferer zu oberer Ebene der Hierarchie
- **Drill-Through** Wenn Drill-Down nicht mehr möglich, wird neue Datenquelle (Würfel) angeschlossen
---
## 8. Varianten (Folie 18)
- **Data Marts** Begrenzter Anwendungsbereich (z.B. eine Abteilung). Einfacher einzurichten als DWH, aber Konsistenzprobleme bei mehreren Data Marts
- **Operation Data Stores** Für aktuelle (tägliche) Auswertungen, unterstützen kaum langfristige Abfragen