E-Book, Deutsch, 198 Seiten, eBook
Helmis / Hollmann Webbasierte Datenintegration
2009
ISBN: 978-3-8348-9280-5
Verlag: Vieweg & Teubner
Format: PDF
Kopierschutz: 1 - PDF Watermark
Ansätze zur Messung und Sicherung der Informationsqualität in heterogenen Datenbeständen unter Verwendung eines vollständig webbasierten Werkzeuges
E-Book, Deutsch, 198 Seiten, eBook
Reihe: Ausgezeichnete Arbeiten zur Informationsqualität
ISBN: 978-3-8348-9280-5
Verlag: Vieweg & Teubner
Format: PDF
Kopierschutz: 1 - PDF Watermark
Die Autoren diskutieren die Problematik der Datenqualität, und entwickeln ein webbasiertes Werkzeug, welches die Integration der Daten ermöglicht und die Qualität der Datenbestände testet. Die Analyse der Bestände, das Auffinden von Duplikaten und die Bereinigung der Daten stehen dabei im Fokus dieses Werkzeuges, welches eine Grundlage für eine umfassende Datenqualitäts- und Bereinigungslösung darstellen kann.
Steven Helmis und Robert Hollmann studierten Angewandte Informatik an der Fachhochschule Erfurt und wurden für ihre Arbeiten mit dem 'Information Quality Best Master Degree Award' der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.
Zielgruppe
Research
Autoren/Hrsg.
Weitere Infos & Material
1;Geleitwort;6
2;Vorwort;7
3;Inhaltsverzeichnis;9
4;Abbildungsverzeichnis;12
5;Tabellenverzeichnis;15
6;Abkürzungsverzeichnis;17
7;Teil I Datenbereinigung und Konsolidierung von heterogenen Datenbeständen;20
7.1;1 Einleitung;21
7.1.1;1.1 Motivation;22
7.1.2;1.2 Zielsetzung der Arbeit;23
7.1.3;1.3 Aufbau der Arbeit;23
7.2;2 Datenqualität;25
7.2.1;2.1 Datenqualität de.nieren;25
7.2.2;2.2 Datenfehler;26
7.2.3;2.3 Qualitätskriterien;29
7.2.4;2.4 Methoden zur Einstufung der Qualität;32
7.3;3 Dimensionen und Architektur der Informationsintegration;42
7.3.1;3.1 Verteilung;42
7.3.2;3.2 Heterogenität;43
7.3.3;3.3 Autonomie;45
7.3.4;3.4 Integrationsarchitektur;46
7.4;4 Data Cleaning;52
7.4.1;4.1 Datenanalyse;53
7.4.2;4.2 Normalisierung und Validierung;56
7.4.3;4.3 Record Matching;57
7.4.4;4.4 Record Merging;59
7.5;5 Konzeption des Data Cleaning Toolkits;66
7.5.1;5.1 Bewertung und Analyse exisitierender Systeme;66
7.5.2;5.2 Anforderungsanalyse;69
7.5.3;5.3 Architektur Data Cleaning Toolkit;71
7.5.4;5.4 Funktionsumfang;72
7.6;6 Implementierung;80
7.6.1;6.1 Datenbankentwicklung;80
7.6.2;6.2 Webentwicklung;88
7.6.3;6.3 Probleme während der Implementierungsphase;94
7.7;7 Zusammenfassung und Ausblick;95
7.8;Literaturverzeichnis;97
8;Teil II Auffinden und Bereinigen von Duplikaten in heterogenen Datenbeständen;104
8.1;8 Einleitung;105
8.1.1;8.1 Motivation;106
8.1.2;8.2 Zielstellungen dieser Arbeit;107
8.1.3;8.3 Gliederung dieser Arbeit;108
8.2;9 Informationen, Daten und Wissen- ein De.nitionsversuch;109
8.2.1;9.1 Begriffsdefinitionen;110
8.2.2;9.2 Herkunft von Daten und Informationen;112
8.2.3;9.3 Beschaffenheit von Daten und Zugriff auf Informationen;112
8.3;10 Informationsintegration im Fokus der Datenqualität;117
8.3.1;10.1 Ist-Stand in Unternehmen- Notwendigkeit der Integration;117
8.3.2;10.2 Informations- und Datenqualität;119
8.3.3;10.3 Sicherung der Datenqualität;128
8.3.4;10.4 Kosten der Datenqualität;129
8.4;11 Duplikate in Datenbeständen;131
8.4.1;11.1 Dubletten und deren Identi.kation;131
8.4.2;11.2 Ein Framework zur Objektidenti.kation;132
8.4.3;11.3 Das Dilemma der Dublettensuche;134
8.5;12 Konkrete Verfahren zur Dublettenauf.ndung und Klassi.kation;139
8.5.1;12.1 Ähnlichkeitsmessungen und Klassi.kation;139
8.5.2;12.2 Ähnlichkeitsbestimmung bei Tupeln in einem Datenbestand;140
8.5.3;12.3 Vorselektion für die Dublettensuche;156
8.6;13 Konzept der Datenqualitätsanwendung „DCT“;160
8.6.1;13.1 Zielstellung der Applikation;160
8.6.2;13.2 Anforderungsanalyse;161
8.6.3;13.3 Technologiemodell;170
8.6.4;13.4 Datenbankmodell;173
8.6.5;13.5 Applikationsarchitektur;177
8.6.6;13.6 Applikationsstruktur;179
8.6.7;13.7 Entwicklung einer Benutzerober.äche;182
8.7;14 Implementierung, ausgewählte Algorithmen- und Datenstrukturen;185
8.7.1;14.1 „DCT“- Der Verbindungsmanager;185
8.7.2;14.3 „DCT- Data Pro.ling“;189
8.7.3;14.4 „DCT“-Plausibilitätskontrolle;192
8.7.4;14.5 „DCT“- Auf.nden von Duplikaten;194
8.8;15 Fazit und Ausblick;199
9;Literaturverzeichnis;201
Datenbereinigung und Konsolidierung von heterogenen Datenbeständen.- Datenqualität.- Dimensionen und Architektur der Informationsintegration.- Data Cleaning.- Konzeption des Data Cleaning Toolkits.- Implementierung.- Zusammenfassung und Ausblick.- Auffinden und Bereinigen von Duplikaten in heterogenen Datenbeständen.- Informationen, Daten und Wissen- ein Definitionsversuch.- Informationsintegration im Fokus der Datenqualität.- Duplikate in Datenbeständen.- Konkrete Verfahren zur Dublettenauffindung und Klassifikation.- Konzept der Datenqualitätsanwendung „DCT“.- Implementierung, ausgewählte Algorithmen- und Datenstrukturen.- Fazit und Ausblick.
13 Konzept der Datenqualitätsanwendung „DCT" (S. 147-148)
Nachdem in den vergangenen Kapiteln die theoretischen Grundlagen für das Messen von Datenqualität und das konkrete Auf.nden von Duplikaten vorgestellt wurden, folgt in diesem Kapitel die Dokumentation eines Konzeptes zur konkreten Umsetzung einiger gezeigter Verfahrensweisen in einer leistungsfähigen Anwendung. Dieses Kapitel stellt die entwickelte Software „Data Cleaning Toolkit", kurz „DCT" sowie die zugrunde liegenden Entwicklungsmodelle und Entwürfe dar.
Neben der Architektur der verwendeten Technologie, der der Anwendung als Grundlage dient, werden die Modelle der Applikation, wie auch die zum Einsatz kommenden Datenmodelle beschrieben und dokumentiert. Für eine einfache und effiziente Anwendung, wird die Applikation durch eine einfache, aber leistungsfähige und gut verwendbare Benutzerober.äche bedient. Eingangs werden die Motivation für die Entwicklung der Anwendung, wie auch die gestellten Anforderungen diskutiert.
13.1 Zielstellung der Applikation
Die außerordentliche Notwendigkeit der Erhaltung bzw. Schaffung einer hohen Datenqualität in einem Unternehmensdatenbestand wurde im Verlauf dieser Arbeit mehrfach hervorgehoben und bewiesen. Es erscheint logisch, dass vorgestellte Konzepte und Verfahrensweisen in einer Softwaretechnischen Umsetzung angewendet werden. Die mit Co-Autor Steven Helmis (vgl. [Hel07]) entworfene und prototypisch im Rahmen dieser Masterthesis implementierte Applikation stellt das Ergebnis der thematischen Auseinandersetzung mit Datenqualität und deren Bewertung dar. Ziel der Applikationsentwicklung war es, eine leistungsfähige, modular aufgebaute und universell einsetzbare Lösung zur Datenqualitätsbewertung wie auch der Identi.kation von Duplikaten mit einer adäquaten Visualisierung und Auswertung zu entwickeln.
Als Quelldaten sollten hierbei vor allem verschiedene heterogene Datenbanken unterschiedlicher Datembankmanagementsysteme dienen. Für die eigentliche Bewertung und die Verarbeitung der geladenen, heterogenen Operativdaten wird in der Arbeitsdatenbank eine „Workspace-Table" angelegt, was eine manipulationsfreie Weiterverarbeitung der Quelldaten ermöglicht. In dieser sollen, die im Folgenden beschrieben Verfahren und Funktionen zur Bewertung der Qualität im geladenen Datenbestand und zur Duplikaterkennung nach verschiedenen Gesichtspunkten durchgeführt werden. Eine entsprechende, Grafiken-gestützte Auswertung macht die ermittelten Ergebnisse für Benutzer des Systems interpretierbar. Ebenso sollten externe Referenzdaten für die Qualitätsmessung und die Dublettensuche zum Einsatz kommen.
Die Anwendung soll universell als Client/Sever Anwendung ausgeführt werden. Als Zieltechnologie dient die webbasierte PHP-Skriptsprache. Die Arbeitsdatenbank, wie auch Applikationsdatenstrukturen werden im freien DBMS „MSSQL 2005 Express" verfügbar gemacht. Mit Hilfe von einzurichtenden Konnektoren soll so auf externe, verteilte und über das Internet verfügbare Quelldatenbanken zugegriffen werden. Interpretierbarkeit und Übersichtlichkeit der erzeugten Ergebnisse stand im Vordergrund der Auswertung und Visualiserung am Ende des Bewertungsprozesses.
13.2 Anforderungsanalyse
Für die Entwicklung des „DCT" wurde eine umfangreiche Analyse der eigentlichen Anforderungen an den zu implementierenden Prototypen durchgeführt. Diese sollen im folgenden Abschnitt dargestellt werden und orientieren sich in ihrer Struktur vornehmlich an den Richtlinien des „Reqirements Engineering", also der Anforderungsanalyse für die Softwareentwicklung, die im Referenzwerk von Balzert et al. (vgl. [Bal00]) dargestellt sind. Aus Gründen der Übersichtlichkeit wird jedoch nur ein Teil der von Balzert et al. geforderten Inhalte eines vollständigen P.ichtenhefts (engl. Software Requirement Speci.cation, kurz SRS) in diesem Abschnitt dargestellt.