Köppen / Sattler / Saake Data Warehouse Technologien
2.Auflage 2014
ISBN: 978-3-8266-9588-9
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection
E-Book, Deutsch, 338 Seiten
Reihe: mitp Professional
ISBN: 978-3-8266-9588-9
Verlag: mitp Verlags GmbH & Co.KG
Format: PDF
Kopierschutz: 0 - No protection
Architekturprinzipien von Data-Warehouse-Systemen
Datenstrukturen und Algorithmen
Anwendungsfeld Business Intelligence
Dieses Lehrbuch behandelt Konzepte und Techniken von Data-Warehouse-Systemen, die eine wesentliche Komponente in betrieblichen Entscheidungsprozessen darstellen. Im Mittelpunkt stehen dabei Architekturprinzipien sowie die Umsetzung des multidimensionalen Datenwürfels als zentrale Komponente des Data Warehouse. Die Zusammenführung der Daten aus verschiedenen betrieblichen und externen Quellen spielt eine ebenso wichtige Rolle wie Datenstrukturen und Algorithmen für die Realisierung von Speicher- und Indexstrukturen. Die Navigation im Datenwürfel und die Anfrageverarbeitung sowie Anwendungen aus dem Themenfeld Business Intelligence geben einen Einblick in den Umgang mit dem Data Warehouse.Detailliert werden sowohl der Aufbau als auch die Nutzung von Data-Warehouse-Systemen beleuchtet. Dabei stehen Modellierungskonzepte und die Thematik der multidimensionalen Anfragen im Vordergrund. Zudem werden Interna wichtiger Systemlösungen von Oracle, IBM und Microsoft anhand zahlreicher Beispiele erläutert.Das Buch fokussiert auf relationale Umsetzungsstrategien des Data Warehouse. Es ist daher empfehlenswert, sich ebenfalls mit den Grundlagenwerken Datenbanken – Konzepte und Sprachen sowie Datenbanken – Implementierungstechniken auseinanderzusetzen; sie erlauben es dem Leser, die Konzepte aus Datenbanken für das Data Warehouse leichter zu transferieren. Das Buch ist geeignet für Studierende der Informatik oder verwandter Fächer im Masterbereich und bietet gleichzeitig auch dem Anwender bzw. Entwickler vertiefende Hintergrundinformationen zu aktuellen Data-Warehouse-Technologien.Die Autoren lehren und forschen im Bereich Datenbanken und Informationssysteme sowie Business Intelligence – Veit Köppen und Gunter Saake an der Universität Magdeburg und Kai-Uwe Sattler an der TU Ilmenau.
Aus dem Inhalt:
Data Warehousing
Architekturkonzepte
Extraktion, Transformation und Laden
Datenqualität
Business Intelligence
Modellierung
Multidimensionales Modell
Relationale Umsetzung
Star- und Snowflake-Schema
Slowly Changing Dimensions
Speicher- und Indexstrukturen
ROLAP und MOLAP
Partitionierung
Row Stores, Column Stores und In-MemoryBitmap-Indexe
Mehrdimensionale Indexstrukturen
Data Warehouse:Anfragen und Verarbeitung
OLAP-Anfrage-operatoren
SQL-Operatoren im Data Warehouse
Anfrageplanung
Materialisierte Sichten
Autoren/Hrsg.
Weitere Infos & Material
1;Cover;1
2;Titel;3
3;Impressum;4
4;Inhaltsverzeichnis;9
5;1 Einführung in Data-Warehouse-Systeme;15
5.1;1.1 Anwendungsszenario Getränkemarkt;16
5.2;1.2 OLTP versus OLAP;18
5.2.1;1.2.1 OLAP- versus OLTP-Transaktionen;19
5.2.2;1.2.2 Vergleich von OLTP und OLAP;20
5.2.3;1.2.3 Abgrenzung: DBMS-Techniken;21
5.3;1.3 Charakteristika und Begriffe;22
5.4;1.4 Big Data und Data Warehousing;23
5.5;1.5 Aufbau des Buches;25
5.6;1.6 Vertiefende Literatur;27
5.7;1.7 Übungen;28
6;2 Architektur;29
6.1;2.1 Anforderungen;29
6.1.1;2.1.1 Grobe Übersicht über Data-Warehouse-Systeme;29
6.1.2;2.1.2 Anforderungen an die Architektur;31
6.1.3;2.1.3 Die 12 OLAP-Regeln nach Codd;32
6.1.4;2.1.4 Die FASMI-Anforderungen;35
6.2;2.2 Datenfluss in einem Data-Warehouse-System;36
6.2.1;2.2.1 Phasen des Data Warehousing;36
6.2.2;2.2.2 Datenquellen;37
6.2.3;2.2.3 Datenbereinigungsbereich;40
6.2.4;2.2.4 Extraktionskomponenten;41
6.2.5;2.2.5 Transformationskomponenten;41
6.2.6;2.2.6 Ladekomponente;43
6.2.7;2.2.7 Basisdatenbank;43
6.2.8;2.2.8 Befüllen;43
6.2.9;2.2.9 Der Datenwürfel;44
6.2.10;2.2.10 Data Marts;44
6.2.11;2.2.11 Das Data Warehouse;45
6.3;2.3 Referenzarchitektur;45
6.3.1;2.3.1 Data-Warehouse-Manager;46
6.3.2;2.3.2 Monitore;47
6.3.3;2.3.3 Repository;49
6.3.4;2.3.4 Metadaten-Manager;49
6.3.5;2.3.5 Diskussion der kompletten Referenzarchitektur;49
6.4;2.4 Architektur des Data Warehouse;50
6.4.1;2.4.1 Rolle der Data Marts;50
6.4.2;2.4.2 Abhängige Data Marts: Nabe und Speiche;51
6.4.3;2.4.3 Unabhängige Data Marts;52
6.4.4;2.4.4 Föderierte und virtuelle Datenwürfel;53
6.4.5;2.4.5 Data-Warehouse-Architektur in der Praxis;53
6.4.6;2.4.6 Ein Multi-Schichten-Architekturansatz;54
6.5;2.5 Vertiefende Literatur;57
6.6;2.6 Übungen;58
7;3 Modellierung von Data Warehouses;59
7.1;3.1 Das multidimensionale Datenmodell;59
7.1.1;3.1.1 Grundbegriffe;59
7.1.2;3.1.2 Dimensionen;61
7.1.3;3.1.3 Fakten und Kennzahlen;62
7.1.4;3.1.4 Schema des multidimensionalen Datenwürfels;64
7.2;3.2 Konzeptuelle Modellierung;66
7.2.1;3.2.1 Das ME/R-Modell;67
7.2.2;3.2.2 ADAPT;68
7.3;3.3 Relationale Umsetzung;70
7.3.1;3.3.1 Prinzip der relationalen Abbildung;70
7.3.2;3.3.2 Snowflake-Schema;71
7.3.3;3.3.3 Star-Schema;73
7.3.4;3.3.4 Vergleich von Snowflake- und Star-Schema;74
7.3.5;3.3.5 Fact-Constellation-Schema und Galaxie-Schema;75
7.3.6;3.3.6 Alternative Modellierung von Klassifikationshierarchien;78
7.3.7;3.3.7 Vermeidung von Semantikverlusten;79
7.4;3.4 Slowly Changing Dimensions;81
7.4.1;3.4.1 Berichtsanforderungen im Data Warehouse;83
7.4.2;3.4.2 Typdefinitionen nach Kimball;86
7.4.3;3.4.3 Realisierungen im Data Warehouse;88
7.5;3.5 Vertiefende Literatur;93
7.6;3.6 Übungen;94
8;4 Extraktions-, Transformations- und Ladeprozess;95
8.1;4.1 Qualitätsaspekte;96
8.1.1;4.1.1 Der Datenbereinigungsprozess;98
8.1.2;4.1.2 Duplikaterkennung;102
8.1.3;4.1.3 Vergleichsfunktionen;104
8.1.4;4.1.4 Beheben von Datenkonflikten;110
8.2;4.2 Der ETL-Prozess;111
8.3;4.3 Die Extraktionsphase;113
8.3.1;4.3.1 Extraktionstechniken;114
8.3.2;4.3.2 Methode des Differential Snapshot;115
8.4;4.4 Die Transformationsphase;119
8.4.1;4.4.1 Daten- und Schemakonflikte;121
8.4.2;4.4.2 Mappings im Transformationsschritt;123
8.5;4.5 Die Ladephase;127
8.5.1;4.5.1 Verwendung des Oracle SQL-Loader;128
8.5.2;4.5.2 Multi-Table-Insert;130
8.6;4.6 Alternativer Ansatz: ELT;132
8.7;4.7 Vertiefende Literatur;133
8.8;4.8 Übungen;134
9;5 Anfragen an Data-Warehouse-Datenbanken;137
9.1;5.1 Einführung und Anforderungen;137
9.2;5.2 OLAP-Operationen;139
9.3;5.3 SQL-Operationen für das Data Warehouse;142
9.3.1;5.3.1 Relationale Umsetzung multidimensionaler Anfragen;142
9.3.2;5.3.2 CUBE und ROLLUP;148
9.3.3;5.3.3 OLAP-Funktionen in SQL:2003;152
9.4;5.4 MDX;159
9.5;5.5 Vertiefende Literatur;165
9.6;5.6 Übungen;166
10;6 Speicherung;167
10.1;6.1 Speicherung des Datenwürfels: Array vs. Relationen;167
10.1.1;6.1.1 Relationale Implementierung – ROLAP;168
10.1.2;6.1.2 Implementierung als Array – MOLAP;170
10.1.3;6.1.3 Vergleich ROLAP und MOLAP-Speicherung;174
10.1.4;6.1.4 Hybride Speicherung – HOLAP;177
10.1.5;6.1.5 Alternative Speicherungsformen;178
10.2;6.2 Partitionierung;181
10.2.1;6.2.1 Partitionierung in relationalen Datenbanken;181
10.2.2;6.2.2 Partitionierung in Data Warehouses;184
10.2.3;6.2.3 Partitionierung von Datenwürfeln;185
10.3;6.3 Spaltenorientierte Datenhaltung;190
10.3.1;6.3.1 Basisideen der spaltenorientierten Datenhaltung;190
10.3.2;6.3.2 Operationen und Anfragen in spaltenorientierter Datenhaltung;191
10.3.3;6.3.3 Speichervarianten in spaltenorientierter Datenhaltung;193
10.4;6.4 Hauptspeicherdatenbanken;199
10.4.1;6.4.1 Was sind Hauptspeicherdatenbanken?;199
10.4.2;6.4.2 Technologien aktueller Hauptspeicherdatenbanken;201
10.4.3;6.4.3 Komprimierung von Daten;202
10.4.4;6.4.4 Delta-Relationen;204
10.5;6.5 Vertiefende Literatur;205
10.6;6.6 Übungen;206
11;7 Indexstrukturen;209
11.1;7.1 Klassifikation von Indexstrukturen;209
11.2;7.2 B-Bäume und Varianten;212
11.2.1;7.2.1 Der B+-Baum;213
11.2.2;7.2.2 Degenerierte B-Bäume;214
11.2.3;7.2.3 Ordnungsabhängigkeit in B-Bäumen;215
11.2.4;7.2.4 B+-Baum-Tricks: Oversized Index;216
11.2.5;7.2.5 B+-Baum-Tricks: Berechnete Indexe;217
11.3;7.3 Bitmap-Indexe;217
11.3.1;7.3.1 Prinzip von Bitmap-Indexen;218
11.3.2;7.3.2 Bitmap-Index: Realisierung;219
11.3.3;7.3.3 Standard-Bitmap-Index;220
11.3.4;7.3.4 Mehrkomponenten-Bitmap-Index;221
11.3.5;7.3.5 Bereichskodierter Bitmap-Index;222
11.3.6;7.3.6 Mehrkomponenten-bereichskodierter Bitmap-Index;222
11.3.7;7.3.7 Intervallkodierte Indexierung;224
11.3.8;7.3.8 Auswahl von Bitmap-Indexstrukturen;225
11.4;7.4 Verbundindexe;226
11.4.1;7.4.1 Prinzip des Verbundindex;226
11.4.2;7.4.2 Bitmap-Verbundindex;227
11.5;7.5 Mehrdimensionale Indexstrukturen;228
11.5.1;7.5.1 Grid-File;228
11.5.2;7.5.2 Mehrdimensionales Hashen MDH;230
11.5.3;7.5.3 KdB-Baum;231
11.5.4;7.5.4 R-Bäume;232
11.5.5;7.5.5 Varianten von R-Bäumen;234
11.5.6;7.5.6 Der UB-Baum;235
11.6;7.6 Indexierung von Hierarchien;240
11.6.1;7.6.1 Kodierung von Hierarchien;240
11.6.2;7.6.2 Mehrdimensionales hierarchisches Clustering;241
11.7;7.7 Vertiefende Literatur;242
11.8;7.8 Übungen;243
12;8 Anfrageverarbeitung und materialisierte Sichten;245
12.1;8.1 Anfrageplanung;245
12.1.1;8.1.1 Überblick;246
12.1.2;8.1.2 Star-Join-Optimierung;248
12.2;8.2 Berechnung des CUBE-Operators;251
12.3;8.3 Materialisierte Sichten;255
12.3.1;8.3.1 Anfragebeantwortung mit materialisierten Sichten;256
12.3.2;8.3.2 Auswahl materialisierter Sichten;264
12.3.3;8.3.3 Aktualisierung materialisierter Sichten;266
12.3.4;8.3.4 Materialisierte Sichten in aktuellen DBMS;271
12.4;8.4 Vertiefende Literatur;274
12.5;8.5 Übungen;275
13;9 Business-Intelligence-Anwendungen;277
13.1;9.1 Business Intelligence;278
13.1.1;9.1.1 Begriffsklärung;278
13.1.2;9.1.2 Knowledge Discovery;282
13.1.3;9.1.3 Datenanalyse;285
13.2;9.2 Reporting;286
13.2.1;9.2.1 Balanced Scorecard;289
13.2.2;9.2.2 Navigation im Datenwürfel für Ad-hoc-Reporting;291
13.3;9.3 Data Mining im BI-Umfeld;293
13.3.1;9.3.1 Warenkorbanalyse;295
13.3.2;9.3.2 Kunden-Clustering;303
13.3.3;9.3.3 Klassifikationsverfahren;307
13.3.4;9.3.4 Zeitreihenanalyse & Prognose;311
13.3.5;9.3.5 Data Mining Extensions;313
13.4;9.4 Vertiefende Literatur;315
13.5;9.5 Übungen;316
14;Abbildungsverzeichnis;319
15;Tabellenverzeichnis;325
16;Sachindex;326
17;Literaturverzeichnis;333