Heutzutage müssen Unternehmen, besonders jene mit viel Kundenverkehr, mit einer großen Menge an Daten haushalten. Diese zum Teil riesige Datenmenge hat das Potential nützliche Informationen für das Unternehmen zu enthalten. Data Mining bedeutet wörtlich übersetzt ‚das Schlürfen in Messdaten‘ was mit dem Schürfen nach Gold verglichen werden kann, da extrahierte Information aus einer Datenmenge für das Unternehmen sehr Wertvoll sein kann. Aus einem Datenberg entsteht Wissen. Daher wird für Data Mining auch der Begriff Knowledge Mining verwendet.
Data Mining kann als systematischer, kreativer Prozess angesehen werden, der im Arbeitsfortschritt den Datenbestand nach Regelmäßigkeiten, Mustern, Strukturen, Abweichungen und Beziehungen sowie gegenseitigen Korrelationen jeglicher Art untersucht.1 Dazu verbindet Data Mining Methoden aus der Statistik, dem Maschinellem Lernen, der Datenbanken und der Visualisierung.

Excerpt

Inhaltsverzeichnis

1 Was ist Data Mining ?

1.1 Gründe für die Verbreitung des Data Minings

1.2 Anwendungsgebiete

1.2.1 Der Supermarkt als Informationsbroker

1.2.2 ‚Das könnte Sie interessieren!’ Empfehlungen als direktes Marketing

1.2.3 Gute und Schlechte Kunden

2 Ablauf des Data Mining Prozesses

2.1 CRISP-Data Mining

2.1.1 Business Understanding

2.1.2 Data Understanding

2.1.3 Data Preparation

2.1.4 Modeling

2.1.5 Evaluation

2.1.6 Deployment

3 Methoden des Data Mining

3.1.1 Klassifikation

3.1.2 Segmentierung

3.1.3 Prognose

3.1.4 Korrelationsanalysen

3.1.5 Abweichungsanalyse

4 Die Wichtigsten Techniken des Data Minings

4.1 Decision Trees

4.2 Clustering

4.2.1 K-Means

4.3 Neuronale Netze

5 Data Mining Tools

6 Implementierung

6.1 Data Understanding

6.1.1 Forstbestand

6.1.2 Gasthaus

6.1.3 Brustkrebsuntersuchung

6.2 Data Preparation

6.2.1 Forstbestand

6.2.2 Gasthaus

6.2.3 Brustkrebsuntersuchung

6.3 Modeling

6.3.1 Forstbestand

6.3.2 Gasthaus

6.3.3 Brustkrebsuntersuchung

6.4 Evaluation

6.4.1 Forstbestand

6.4.2 Gasthaus

6.4.3 Brustkrebsuntersuchung

6.5 Deployment

7 Open Source Programme

7.1 WEKA

7.1.1 Modeling mit WEKA

7.1.2 Rapid Miner

7.1.3 Vergleich

8 Aussicht

Zielsetzung & Themen

Die Arbeit untersucht den systematischen Prozess des Data Minings, um aus großen Datenmengen durch Methoden wie Klassifikation, Segmentierung und Prognose wertvolles Wissen für strategische Entscheidungen zu generieren. Dabei wird der Fokus auf die praktische Anwendung und Implementierung mittels Open-Source-Tools gelegt.

Grundlagen und Definition des Data-Mining-Prozesses (CRISP-DM)
Anwendung von Klassifikations- und Clustering-Techniken
Praktische Implementierung an Datensätzen aus den Bereichen Forstwirtschaft, Gastronomie und Medizin
Vergleich und Evaluation von Open-Source-Data-Mining-Tools (WEKA und Rapid Miner)

Auszug aus dem Buch

4.1 Decision Trees

Decision Trees oder auch zu Deutsch Entscheidungsbäume ist eine einfache jedoch gut funktionierende Technik, durch das eine Klassifizierung und eine Prognostizierung sehr gut graphisch dargestellt werden kann (wie zu sehen in Abb. 5)

Der zweite Grund Decision Trees anzuwenden ist dass nicht nur als Ergebnis eine Klassifizierung, sondern auch die ‚Rules’, die Regeln nach der die Klassifizierung durchgeführt wurde, ausgegeben werden (Was bei Klassifikation nach neuronalen Netzen nicht der Fall ist). Dies ist essentiell bei Versicherungen, da diese verpflichtet sind den Grund für die Einteilung ihrer Kunden in verschiedenen Stufen offen zu legen. Banken können auch begründen, warum sie einem Kunden einen Kredit nicht gewähren.(z.B. Einkommen zu niedrig für die Höhe des Kredits)

Decision Trees unterteilen eine große Gruppe heterogener Objekte in kleinere, homogenere Klassen, welche ähnliche Eigenschaften aufweisen. Wie z.B. die Aufteilung der Tierwelt in Klasse, Ordnung, Familie, Gattung und Spezies. Die Regeln für die Unterteilung sind Nachvollziehbar, z.B. nach Klassen mit unterschiedlichen Eigenschaften: Säugetiere, Vögel, Reptilien, Fische, Insekten und Würmer.

Die Unterteilung findet wie folgt statt:

• Jede Variable wird einzeln hergenommen und die Genauigkeit der Teilung die durch die einzelnen Ausprägung dieser einzelnen Variable hervorgeht wird gemessen.

• Dies wird mit allen Variablen einzeln gemacht

• Die Variable die die beste, bzw. genaueste Aufteilung her gibt, wird für die erste Aufteilung genommen, d.h. aus der Gesamtmasse entstehen 2 oder mehrere Teilmassen.

• Dieser Prozess wiederholt sich solange bis keine Aufteilung mehr gemacht werden kann (auch schon verwendete Variablen werden noch mal untersucht), da entweder die Menge an Objekten zu klein wird, oder keine Aufteilung mehr einen Sinn ergibt, da sich die entstehenden Teilmassen kaum unterscheiden würden.

• Der Decision Tree wird dann ausgegeben und die Regeln können nachvollzogen werden.

Zusammenfassung der Kapitel

1 Was ist Data Mining ?: Definiert Data Mining als einen kreativen Prozess zur Gewinnung von Wissen aus Daten und erläutert dessen zunehmende Bedeutung für Unternehmen.

2 Ablauf des Data Mining Prozesses: Beschreibt das CRISP-DM Modell als dynamischen Standard für die Phasen des Data Mining.

3 Methoden des Data Mining: Gibt einen Überblick über grundlegende Techniken wie Klassifikation, Segmentierung, Prognose, Korrelations- und Abweichungsanalysen.

4 Die Wichtigsten Techniken des Data Minings: Vertieft das Verständnis von Decision Trees, Clustering (K-Means) und Neuronalen Netzen als Kernverfahren.

5 Data Mining Tools: Bietet einen Überblick über den Markt kommerzieller und Open-Source-Werkzeuge.

6 Implementierung: Dokumentiert die praktische Analyse von drei unterschiedlichen Datensätzen (Forst, Gastronomie, Medizin) zur Demonstration der Methoden.

7 Open Source Programme: Vergleicht WEKA und Rapid Miner hinsichtlich ihrer Funktionalität und Anwendung.

8 Aussicht: Unterstreicht die Notwendigkeit von intelligentem Data Mining zur Bewältigung stetig wachsender Datenmengen für strategische Entscheidungen.

Schlüsselwörter

Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Neuronale Netze, Prognose, Warenkorbanalyse, WEKA, Rapid Miner, Knowledge Discovery, Kundenprofiling, Business Intelligence, Datenauswertung, Modellierung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Theorie und die praktische Anwendung von Data-Mining-Methoden, um aus komplexen Rohdaten wertvolle Informationen und Erkenntnisse für betriebswirtschaftliche und andere Kontexte zu gewinnen.

Was sind die zentralen Themenfelder der Arbeit?

Im Zentrum stehen der Data-Mining-Prozess (CRISP-DM), gängige Methoden wie Klassifikation und Clustering sowie der praktische Einsatz von Data-Mining-Tools wie WEKA und Rapid Miner.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, den Nutzen von Data Mining zu veranschaulichen, indem theoretische Grundlagen direkt mit konkreten praktischen Umsetzungen an verschiedenen realen Datensätzen verknüpft werden.

Welche wissenschaftlichen Methoden werden verwendet?

Es werden verschiedene Data-Mining-Algorithmen und Techniken wie Entscheidungsbäume (Decision Trees), K-Means-Clustering und Neuronale Netze angewendet und deren Ergebnisse evaluiert.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Einführung des Prozesses, die Erläuterung der Methoden, eine detaillierte Implementierungsphase mit Fallbeispielen aus Forstwirtschaft, Gastronomie und Medizin sowie einen Werkzeugvergleich.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wesentliche Begriffe sind Data Mining, CRISP-DM, Klassifikation, Clustering, Decision Trees, Business Intelligence sowie der praktische Vergleich von Open-Source-Tools.

Wie hilft Data Mining konkret bei der Klassifizierung von medizinischen Daten?

Anhand der Brustkrebsuntersuchungen des Clinical Service Centers wird gezeigt, dass durch eine J48-Decision-Tree-Analyse Tumore mit einer Genauigkeit von über 99 % klassifiziert werden können.

Welche Vorteile bietet der Vergleich zwischen WEKA und Rapid Miner?

Die Arbeit zeigt, dass WEKA durch eine einfache Integration in andere Software besticht, während Rapid Miner eine exzellente Visualisierung und benutzerfreundliche Data-Preparation-Tools bietet.

Excerpt out of 49 pages - scroll top

Details

Title: Data Mining - Theorie und praktische Anwendungen
College: University of Vienna (Wirtschaftsinformatik)
Course: Business Intelligence
Grade: 1,0
Author: Carl-Niklas Wentzel (Author)
Publication Year: 2009
Pages: 49
Catalog Number: V122056
ISBN (eBook): 9783640268863
Language: German
Tags: Data Mining WEKA Rapid Miner knowledge discovery Data Mining datenbank warehousing wirtschaftsinformatik e-business business intelligence
Product Safety: GRIN Publishing GmbH

Quote paper: Carl-Niklas Wentzel (Author), 2009, Data Mining - Theorie und praktische Anwendungen, Munich, GRIN Verlag, https://www.grin.com/document/122056

Data Mining - Theorie und praktische Anwendungen