In der heutigen Zeit werden Unternehmen und Institutionen, bedingt durch den technologischen Fortschritt, mit einer enormen Flut unterschiedlichster Daten konfrontiert. Das Earth Observing System der NASA mit seinen Satelliten produziert beispielsweise über 50GB Daten pro Stunde. Insbesondere für das Management enthalten diese Daten wertvolles Wissen, um Probleme aufzudecken, Produktionsabläufe zu optimieren oder bessere Zukunftsprognosen anzustellen. Resultat dieser Bemühungen um den strategischen Wettbewerbsfaktor Wissen ist eine langfristig bessere Positionierung des Unternehmens am Markt.

Ohne Analyse dieser Daten steht jedoch das Wissen nicht zur Verfügung. Aufgrund der Datenmenge scheiden jedoch manuelle Analyseverfahren aus und es werden schnelle und effiziente automatisierte Analyseverfahren nötig. Mit dem Data Mining beziehungsweise dem Knowledge Discovery in Databases (KDD) existiert ein mächtiges Werkzeug, um die sehr umfangreiche Aufgabe der Wissensextraktion zu bewältigen, so daß das Interesse der Forschung und Industrie an diesem Gebiet stetig ansteigt.

Anzumerken ist jedoch, daß das Data Mining ein relativ junges Forschungsgebiet ist und daher die Meinungen, was Data Mining ist und was Data Mining zugeordnet werden soll, teilweise stark differieren.

In dieser Arbeit wird im ersten Kapitel ein allgemeiner Überblick über Data Mining gegeben. Dazu wird der Begriff Data Mining erläutert, gegenüber dem KDD abgegrenzt und das Data Mining bezüglich seiner Arten, Aufgaben, Ziele und Bedeutung eingeordnet. Im zweiten Kapitel werden verschiedene etablierte und neuere Data Mining-Verfahren vorgestellt. Der konkreten Ausgestaltung des Data Mining in der Praxis widmet sich Kapitel drei. Neben der Vorstellung des CRISP-DM Modells und des Ansatzes Data Mining direkt in Datenbank-Management Systemen zu integrieren, wird die Anwendung anhand von drei Beispielen: SQL/MM, SAS und SPSS vorgestellt. Im vierten Kapitel wird exemplarisch auf die vielfältigen wirtschaftlichen
Anwendungsmöglichkeiten des Data Mining eingegangen. Nach einem Überblick werden die Bereiche Marketing, Handel, Bankenwesen, Verbrechensbekämpfung und Suchmaschinen genauer beleuchtet. Daß auch beim Data Mining einige Probleme auftreten, wird im Kapitel fünf betrachtet. Der Fokus liegt hier auf den Problemfeldern Softwarequalität, Datenschutz, Laufzeitverhalten und Aussagekraft der Ergebnisse. Abgeschlossen werden die Ausführungen dieser Arbeit mit einer Zusammenfassung.

Excerpt

Inhaltsverzeichnis

Einleitung

1 Überblick über das Data Mining

1.1 Der Begriff Data Mining

1.2 Einordnung des Data Mining

1.3 Arten des Data Mining

1.4 Ziele, Aufgaben und Bedeutung des Data Mining

2 Verfahren und Umsetzungen

2.1 Clusteranalyse

2.2 Klassifizierung

2.3 Assoziierung

2.4 Neuronale Netze, Fuzzy Theorie und Genetische Algorithmen

3 Analyseprozeß in der Praxis

3.1 CRISP-DM Modell

3.2 Data Mining in Datenbank Management Systemen

3.3 SQL/MM

3.4 SAS

3.5 SPSS

4 Wirtschaftliche Anwendungsmöglichkeiten

4.1 Überblick

4.2 Marketing

4.3 Bankenwesen

4.4 Handel

4.5 Verbrechensbekämpfung

4.6 Suchmaschinen

5 Probleme

5.1 Datenproblematik

5.2 Softwarequalität

5.3 Datenschutz

5.4 Rechenzeitverhalten

5.5 Aussagekraft der Ergebnisse

Zusammenfassung

Zielsetzung & Themen

Die Arbeit untersucht das Data Mining als Werkzeug zur Wissensextraktion aus großen Datenmengen, beleuchtet theoretische Verfahren, praktische Implementierungsansätze und deren vielfältige Einsatzmöglichkeiten in der Wirtschaft sowie die auftretenden Herausforderungen.

Methoden des maschinellen Lernens (Clusteranalyse, Klassifizierung, Assoziierung)
Prozessmodelle zur praktischen Anwendung (insbesondere CRISP-DM)
Wirtschaftliche Anwendungsgebiete (Marketing, Bankenwesen, Handel, Kriminalistik)
Technische und ethische Problemfelder (Datenqualität, Softwarequalität, Datenschutz)

Auszug aus dem Buch

1.1 Der Begriff Data Mining

Unter dem Begriff Data Mining werden in der Literatur Techniken zum systematischen voll oder halbautomatischen Auffinden nützlicher und interessanter Regeln und Muster verstanden ((Bissantz 1996, S.1)). Gesucht wird in Datenbeständen, großen strukturierten, teilweise dynamischen oder komplex strukturierten, Beständen numerischer, nominal oder ordinal skalierter Daten, (Gebhardt (1994, S.9)). Ziel ist die Entdecken und Extraktion von implizitem Wissen. Eine exaktere Definition läßt sich nicht angeben, da in der Literatur keine einheitliche existiert.

So finden sich Definitionsansätze mit informationstechnischen Schwerpunkt bei Berry u. Linoff (1997) und Decker u. Focardi (1995). Berry und Linoff verstehen unter Data Mining die Erforschung und Analyse großer Datenmengen mit automatischen beziehungsweise halbautomatischen Werkzeugen mit dem Ziel bedeutungsvolle Muster und Regeln aufzudecken. Bei Decker und Focardi ist Data Mining die Problemlösungsmethodik für logische oder mathematische Muster und Regelmäßigkeiten in Daten zu erkennen.

Eine etwas andere Sichtweise findet sich bei Knobloch u. Weidner (2000) oder Thearling (2005). Dort wird unter Data Mining die nichttriviale Entdeckung gültiger, neuer, potentiell nützlicher, verständlicher Muster in großen Datenbanken verstanden. Explizites Wissen gewinnt man aus den durch das Data Mining gewonnenen Mustern durch Interpretation und Evaluation. Nicht genau definiert ist, welche Verfahren, die derartige Datenanalysen durchführen können, konkret dem Data Mining zuzuordnen sind. Aufgrund der Nichttrivialität der Suche in den Datenbanken werden Methoden aus der Statistik und aus dem Bereich wissensbasierter Systeme angewendet (Lusti (1999, S.350)).

Zusammenfassung der Kapitel

1 Überblick über das Data Mining: Dieses Kapitel erläutert den Begriff Data Mining, grenzt ihn vom KDD-Prozess ab und ordnet ihn hinsichtlich seiner Arten sowie seiner Bedeutung für die Wirtschaft ein.

2 Verfahren und Umsetzungen: Hier werden zentrale Methoden des Data Mining, wie Clusteranalyse, Klassifizierung, Assoziierung sowie Neuronale Netze und genetische Algorithmen, theoretisch vorgestellt.

3 Analyseprozeß in der Praxis: Dieses Kapitel beschreibt die praktische Umsetzung anhand von Prozessmodellen wie CRISP-DM und stellt Softwarelösungen wie SQL/MM, SAS und SPSS vor.

4 Wirtschaftliche Anwendungsmöglichkeiten: Es werden exemplarisch Anwendungsbereiche wie Marketing, Bankenwesen, Handel, Verbrechensbekämpfung und Suchmaschinen beleuchtet.

5 Probleme: Das abschließende Hauptkapitel thematisiert kritische Erfolgsfaktoren und Herausforderungen, darunter Datenqualität, Softwarequalität, Datenschutz sowie das Rechenzeitverhalten.

Schlüsselwörter

Data Mining, KDD, CRISP-DM, Clusteranalyse, Klassifizierung, Assoziierung, Neuronale Netze, Warenkorbanalyse, Business Intelligence, Softwarequalität, Datenschutz, Datenanalyse, Mustererkennung, Datenbanken, Algorithmen

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit bietet einen wissenschaftlichen Überblick über das Data Mining, von der begrifflichen Einordnung bis hin zur praktischen Anwendung in verschiedenen Wirtschaftsbereichen.

Was sind die zentralen Themenfelder?

Die Schwerpunkte liegen auf der theoretischen Klassifizierung von Data-Mining-Verfahren, der Vorstellung gängiger Prozessmodelle sowie der Analyse von Einsatzmöglichkeiten und bestehenden Problemen in der Praxis.

Was ist das primäre Ziel der Arbeit?

Ziel ist es, den Begriff des Data Mining fundiert zu definieren und aufzuzeigen, wie Unternehmen mittels systematischer Datenanalyse Wettbewerbsvorteile durch die Extraktion von Wissen aus großen Datenbeständen generieren können.

Welche wissenschaftlichen Methoden werden verwendet?

Die Arbeit stützt sich auf eine umfassende Literaturrecherche und wertet bestehende wissenschaftliche Ansätze, Modellkonzepte sowie Fallstudien aus der Praxis aus.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die Vorstellung mathematisch-statistischer Verfahren, die detaillierte Darstellung von Prozessmodellen wie CRISP-DM sowie die Untersuchung praktischer Anwendungsbeispiele in Branchen wie Marketing und Bankwesen.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Begriffe sind Data Mining, Knowledge Discovery in Databases (KDD), CRISP-DM, Clusteranalyse, Klassifizierung, Assoziierung, Neuronale Netze und Business Intelligence.

Welche Rolle spielt das CRISP-DM Modell in dieser Arbeit?

Das Modell dient als zentrales Beispiel für einen standardisierten Prozess, der wirtschaftliche und technische Aspekte vereint, um Data-Mining-Projekte erfolgreich in Unternehmen zu integrieren.

Wie bewertet der Autor die Aussagekraft von Data-Mining-Ergebnissen?

Der Autor betont, dass Ergebnisse kritisch betrachtet werden müssen, da sie von der Datenqualität abhängen und bei fehlender Modellverifikation zu Fehlaussagen führen können.

Excerpt out of 43 pages - scroll top

Details

Title: Data Mining
College: University of Hagen (Wirtschaftswissenschaften)
Grade: 2,0
Author: Dipl.-Phys. Dipl.-Kfm. Martin Kneip (Author)
Publication Year: 2005
Pages: 43
Catalog Number: V88653
ISBN (eBook): 9783638030090
ISBN (Book): 9783638927840
Language: German
Tags: Data Mining
Product Safety: GRIN Publishing GmbH

Quote paper: Dipl.-Phys. Dipl.-Kfm. Martin Kneip (Author), 2005, Data Mining, Munich, GRIN Verlag, https://www.grin.com/document/88653