In der heutigen Zeit werden Unternehmen und Institutionen, bedingt durch den technologischen Fortschritt, mit einer enormen Flut unterschiedlichster Daten konfrontiert. Das Earth Observing System der NASA mit seinen Satelliten produziert beispielsweise über 50GB Daten pro Stunde. Insbesondere für das Management enthalten diese Daten wertvolles Wissen, um Probleme aufzudecken, Produktionsabläufe zu optimieren oder bessere Zukunftsprognosen anzustellen. Resultat dieser Bemühungen um den strategischen Wettbewerbsfaktor Wissen ist eine langfristig bessere Positionierung des Unternehmens am Markt.
Ohne Analyse dieser Daten steht jedoch das Wissen nicht zur Verfügung. Aufgrund der Datenmenge scheiden jedoch manuelle Analyseverfahren aus und es werden schnelle und effiziente automatisierte Analyseverfahren nötig. Mit dem Data Mining beziehungsweise dem Knowledge Discovery in Databases (KDD) existiert ein mächtiges Werkzeug, um die sehr umfangreiche Aufgabe der Wissensextraktion zu bewältigen, so daß das Interesse der Forschung und Industrie an diesem Gebiet stetig ansteigt.
Anzumerken ist jedoch, daß das Data Mining ein relativ junges Forschungsgebiet ist und daher die Meinungen, was Data Mining ist und was Data Mining zugeordnet werden soll, teilweise stark differieren.
In dieser Arbeit wird im ersten Kapitel ein allgemeiner Überblick über Data Mining gegeben. Dazu wird der Begriff Data Mining erläutert, gegenüber dem KDD abgegrenzt und das Data Mining bezüglich seiner Arten, Aufgaben, Ziele und Bedeutung eingeordnet. Im zweiten Kapitel werden verschiedene etablierte und neuere Data Mining-Verfahren vorgestellt. Der konkreten Ausgestaltung des Data Mining in der Praxis widmet sich Kapitel drei. Neben der Vorstellung des CRISP-DM Modells und des Ansatzes Data Mining direkt in Datenbank-Management Systemen zu integrieren, wird die Anwendung anhand von drei Beispielen: SQL/MM, SAS und SPSS vorgestellt. Im vierten Kapitel wird exemplarisch auf die vielfältigen wirtschaftlichen
Anwendungsmöglichkeiten des Data Mining eingegangen. Nach einem Überblick werden die Bereiche Marketing, Handel, Bankenwesen, Verbrechensbekämpfung und Suchmaschinen genauer beleuchtet. Daß auch beim Data Mining einige Probleme auftreten, wird im Kapitel fünf betrachtet. Der Fokus liegt hier auf den Problemfeldern Softwarequalität, Datenschutz, Laufzeitverhalten und Aussagekraft der Ergebnisse. Abgeschlossen werden die Ausführungen dieser Arbeit mit einer Zusammenfassung.
Inhaltsverzeichnis
- Einleitung
- 1 Überblick über das Data Mining
- 1.1 Der Begriff Data Mining
- 1.2 Einordnung des Data Mining
- 1.3 Arten des Data Mining
- 1.4 Ziele, Aufgaben und Bedeutung des Data Mining
- 2 Verfahren und Umsetzungen
- 2.1 Clusteranalyse
- 2.2 Klassifizierung
- 2.3 Assoziierung
- 2.4 Neuronale Netze, Fuzzy Theorie und Genetische Algorithmen
- 3 Analyseprozeß in der Praxis
- 3.1 CRISP-DM Modell
- 3.2 Data Mining in Datenbank Management Systemen
- 3.3 SQL/MM
- 3.4 SAS
- 3.5 SPSS
- 4 Wirtschaftliche Anwendungsmöglichkeiten
- 4.1 Überblick
- 4.2 Marketing
- 4.3 Bankenwesen
- 4.4 Handel
- 4.5 Verbrechensbekämpfung
- 4.6 Suchmaschinen
- 5 Probleme
- 5.1 Datenproblematik
- 5.2 Softwarequalität
- 5.3 Datenschutz
- 5.4 Rechenzeitverhalten
- 5.5 Aussagekraft der Ergebnisse
- Zusammenfassung
Zielsetzung und Themenschwerpunkte
Diese Seminararbeit beschäftigt sich mit der Thematik des Data Mining. Ziel ist es, einen umfassenden Überblick über das Gebiet zu geben, seine Verfahren und Anwendungen zu erläutern sowie relevante Herausforderungen aufzuzeigen.
- Definition und Abgrenzung des Data Mining
- Arten, Aufgaben und Ziele des Data Mining
- Verfahren und Methoden des Data Mining
- Anwendungen des Data Mining in der Praxis
- Probleme und Herausforderungen des Data Mining
Zusammenfassung der Kapitel
Das erste Kapitel bietet eine Einführung in das Data Mining, erläutert den Begriff, ordnet ihn ein und beleuchtet seine Arten, Ziele und Bedeutung. Kapitel zwei stellt verschiedene Data Mining-Verfahren vor, sowohl etablierte als auch neuere Ansätze. Kapitel drei beschäftigt sich mit der praktischen Umsetzung des Data Mining, einschließlich des CRISP-DM Modells, der Integration in Datenbank Management Systeme und konkreten Beispielen wie SQL/MM, SAS und SPSS. Kapitel vier gibt einen Einblick in die vielfältigen wirtschaftlichen Anwendungsmöglichkeiten des Data Mining, wobei die Bereiche Marketing, Handel, Bankenwesen, Verbrechensbekämpfung und Suchmaschinen im Detail betrachtet werden. Kapitel fünf widmet sich den Problemen des Data Mining, einschließlich der Herausforderungen in den Bereichen Datenqualität, Softwarequalität, Datenschutz, Laufzeitverhalten und Aussagekraft der Ergebnisse.
Schlüsselwörter
Data Mining, Knowledge Discovery in Databases (KDD), Clusteranalyse, Klassifizierung, Assoziierung, Neuronale Netze, Fuzzy Theorie, Genetische Algorithmen, CRISP-DM Modell, Datenbank Management Systeme, SQL/MM, SAS, SPSS, Marketing, Handel, Bankenwesen, Verbrechensbekämpfung, Suchmaschinen, Datenproblematik, Softwarequalität, Datenschutz, Laufzeitverhalten, Aussagekraft der Ergebnisse.
- Arbeit zitieren
- Dipl.-Phys. Dipl.-Kfm. Martin Kneip (Autor:in), 2005, Data Mining, München, GRIN Verlag, https://www.grin.com/document/88653