Leseprobe
Inhaltsverzeichnis
Kurzfassung
Abkürzungsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung
2 Data-Mining / Knowledge Discovery in Databases
3 Geographische Informationssysteme
3.1 GIS-Software
3.2 Datentypen
4 Spatial Data-Mining
4.1 Methoden und Techniken
4.1.1 Spatial Clustering
4.1.2 Räumliche Klassifikation
4.1.3 Räumliche Assoziationsanalyse
4.1.4 Spezielle SDM-Methoden
4.1.4.1 Co-Location Analyse
4.1.4.2 Räumliche Trend Analyse
4.2 Anwendungsgebiete
5 Spatial Data-Mining und Epidemien
6 Fazit
Literaturverzeichnis
Anhang
a) Foliensatz für die Präsentation
b) Inhalt des Datenträgers
Verzeichnisstruktur
Dateiliste
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildungsverzeichnis
Abbildung 1 Entwicklung der aktiven Bauelemente auf Intel CPUs nach dem Mooreschen Gesetz (Quelle: www.itwissen.info)
Abbildung 2 KDD-Prozess (Quelle: http://www.enzyklopaedie-der-wirtschaftsinformatik.de)
Abbildung 3 HIV Prevalence (Quelle: www.worldmapper.org)
Abbildung 4 Planung Biogasanlage (Quelle: www.biogaseinspeisung.de)
Abbildung 5 Komponentenübersicht ArcGIS (Quelle: www.esri.de)
Abbildung 6 John Snow (Quelle: www.wikimedia.org)
Abbildung 7 Auszug der Originalkarte von John Snow (Quelle: The Open University)
Abbildung 8 Ausbreitung Radioaktivität Fukushima (Quelle: www.scientificamerican.com)
Abbildung 9 120. Tag H1N1 (Quelle: BioMed Central)
Tabellenverzeichnis
Tabelle 1 topologische Datenbeziehungen (In Anlehnung an www.gitta.info)
Tabelle 2 Auszug metrische und gerichtete Beziehungen
Tabelle 3 räumliche Assoziationsanalyse (in Anlehnung an: www.wikis.gm.fh-koeln.de)
1 Einleitung
Aus zunehmendem Wachstum und zunehmender Datenerfassung resultieren immer größere Datenbestände in allen Bereichen. Heutzutage werden kommerzielle Transaktionen, Produktionsabläufe und Kommunikationsvorgänge größtenteils elektronisch mit Hilfe von Datenbanken oder des Internets abgewickelt (Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, 2011). Gleichzeitig wird Rechenleistung durch stetig steigende Leistungsfähigkeit immer erschwinglicher. So behauptete bspw. Martin Strobel (Pressesprecher Intel Deutschland) im Jahr 2009:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 Entwicklung der aktiven Bauelemente auf Intel CPUs nach dem Mooreschen Gesetz (Quelle: www.itwissen.info)
"Wir sind zuversichtlich, das Mooresche Gesetz noch eine ganze Weile erfüllen zu können" (Strobel, 2009)
Das „Mooresche Gesetz“ besagt, dass sich die Zahl der Transistoren von Integrierten Schaltungen (IC) etwa alle 18 Monate verdoppelt (DATACOM Buchverlag GmbH, 2011). (siehe Abbildung 1) Simultan dazu wird die dauerhafte Speicherung von Daten immer günstiger.
Aus diesen drei vorgenannten Tatsachen resultiert ein enormes Wachstum des Datenvolumens. So prognostizierte IBM etwa 2009, dass sich die Speicherkapazität in Unternehmen alle 18 Jahre verdoppeln werde (Kudraß, k.A.). Die weltweiten Datenbestände verdoppeln sich mittlerweile sogar alle 20 Monate (Dürr & Schweigert, Anwendungen des Data Mining in der Praxis, 2004). Darüber hinaus rechnen 44% der deutschen Unternehmen mit einem exponentiellen Wachstum des Datenvolumens in den nächsten Jahren. Als eine Hauptursache für dieses Wachstum ist die immer detailliertere Analyse und Erfassung von individuellen Kundendaten anzuführen (Steria Mummert Consulting AG, 2011). Die Ausgangssituation ist also ein stetig exponentiell wachsender, globaler Datenbestand.
In Zukunft wird daher vor allem die „Nutzbarmachung“, somit die Extraktion gültiger und verständlicher Muster aus Datenbeständen, im Fokus stehen.
„Aktuelle Forschungsergebnisse legen nahe, dass künftig im Informationsmanagement nicht der Einsatz von Technologien an sich, sondern die Art des Einsatzes den Unterschied im Wettbewerb ausmachen wird“ (Schulze, 2011)
Auf den nächsten Seiten wird zunächst im Kapitel 2 die Technik des „Data-Mining / Knowledge Discovery in Databases (KDD)“ (=Wissensentdeckung in Datenbanken) an sich erläutert und anschließend im Kapitel 3 ein Überblick zu Geographischen Informationssystemen (GIS) gegeben werden. Das Kapitel 4 befasst sich mit dem „Spatial Data-Mining“, welches die Verknüpfung von DM mit GIS darstellt. Nachfolgend wird der Autor in Kapitel 5 „ Spatial Data-Mining und Epidemien “ auf einen Anwendungsfall des SDM detailliert eingehen und Möglichkeiten zur Weiterentwicklung durch die Nutzung von „Informatiktechniken“ aufzeigen um abschließend im Kapitel 5 ein Fazit zu ziehen und zu versuchen einen Ausblick zu geben.
2 Data-Mining / Knowledge Discovery in Databases
Das Data-Mining wird auch als Wissensentdeckung in Datenbanken (KDD) bezeichnet. Es ist als
“nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data” (Fayyad, Piaetsky-Shapiro, & Smyth, 1996, S. 40)
definiert. Die Übersetzung ins deutsche liefert uns die Definition des DM als
„nicht triviale Entdeckung gültiger, neuer, potentiell nützlicher und verständlicher Muster in großen Datenbeständen“ (Dürr, Anwendungen des Data Mining in der Praxis, 2004, S. 2).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 KDD-Prozess (Quelle: http://www.enzyklopaedie-der-wirtschaftsinformatik.de)
Der Duden benennt DM als „[halb] automatische Auswertung großer Datenmengen zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“ (Bibliographisches Institut GmbH , 2011). Damit steht der Begriff hauptsächlich für die „Wissensgewinnung“ aus Datenbanken und –beständen durch die Gewinnung von gültigen und verständlichen Mustern (Patterns). Data-Mining ist dabei jedoch nur ein Teilprozess der Wissensentdeckung (Kietz, 2009). Der Gesamt-Prozess der Wissensentdeckung ist schematisch in Abbildung 2 dargestellt. Daraus wird ebenfalls ersichtlich an welcher Stelle der Prozesskette das Data-Mining stattfindet.
Da das Kernthema dieser Arbeit „Spatial Data-Mining“ ist wird der Prozess der Wissensentdeckung nur oberflächlich behandelt. Data-Mining ist das Ergebnis des stetigen Fortschritts in der Informationstechnik, denn die Basis bilden komfortabel (in Datenbankstrukturen = Tabellen) abgelegte Daten, auf welche dann Verfahren angewendet werden die sehr große Datenmengen verarbeiten können. Data-Mining besteht aus mathematisch-statistischen Rechenverfahren die intelligent auf Daten (z.B. Data Warehouse-Architekturen) angewendet werden. Das klassische DM bezieht sich dabei auf strukturierte Daten, legt daher z.B. relationale Datenbanken als Basis zugrunde, und dient dem Zweck aus vorhandenen Daten verwertbare Informationen zu gewinnen. Im Teilschritt des Data-Mining werden Algorithmen benutzt die aus vorgegebenen Daten eine Anzahl Muster liefern (Kudraß, k.A., S. 2-6). Für das Data-Mining benötigt man (Kietz, 2009, S. 13):
- Einen Anwendungsfall der den Aufwand des DM rechtfertigt.
- Zu analysierende Daten. (z.B. Kunden-, Produktdaten, Data Warehouse)
- Die Idee für die Lösung des Problems mittels DM. (Verfahren, Algorithmen)
- Tools für die verschiedenen Aufgaben des DM.
Zusammenfassend lässt sich DM als ein Schritt von vielen auf dem Weg von Daten zur Entdeckung von Mustern (in diesen Daten) beschreiben (Morik, 2008, S. 14). Die verwendeten Methoden und Techniken des DM-Prozesses werden äquivalent auch beim SDM angewendet und daher im Kapitel 4 näher erläutert.
[...]