Data Mining: Möglichkeiten und Grenzen


Studienarbeit, 2006

32 Seiten, Note: 2,0


Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

1. Einleitung

2. Grundlagen des Data Mining
2.1 Definition zentraler Begriffe und Abgrenzung
2.2 Data Mining Methoden
2.3 Data Mining Problemtypen
2.4 Prozess der Wissensextraktion

3. Ausgewählte Anwendungsmöglichkeiten des Data Mining im Marketing
3.1 Anwendung des Data Mining im Rahmen der Kundensegmentierung
3.2 Einsatz von Data Mining Methoden bei der Kundenklassifikation
3.3 Anwendung des Data Mining im Bereich der Warenkorbanalyse

4. Grenzen des Data Mining im Marketing
4.1 Verfahrensgrenzen
4.2 Datenschutzrechtliche Grenzen

5. Zusammenfassung und Perspektiven

Anhang

Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1. Einleitung

„We are drowning in information but starved for knowledge.” Dieses Zitat von John Naisbitt beschreibt das Dilemma, welches das rasante Wachstum von Datenbeständen mit sich bringt. Zwar können Daten in immer umfangreicherem Maße erhoben werden, doch ein Großteil des darin enthaltenen Wissens bleibt verborgen.[1]

Die größte Herausforderung stellt, neben der Erfassung und Speicherung der Daten, de­ren Aufbereitung und Verarbeitung dar.[2] Dazu bedarf es einer verständlichen und einfachen Methode, um die regelrechte Datenflut bewältigen und sinnvoll nutzen zu kön­nen.[3] Data Mining verspricht diese Aufgabe zu erfüllen. Es ermöglicht die automatische Wis­sensextraktion aus großen Datenbeständen.[4] Vor diesem Hintergrund sehen viele Unter­nehmen Data Mining sogar als strategisches Instrument zur Realisierung von Kon­kur­renzvorteilen.[5] Durch die Fähigkeit, Informationen über ihren Markt, ihre Kunden und ihre Geschäftstätigkeit aus diesen riesigen Datenbeständen auslesen und wirksam ein­setzen zu können, ergeben sich oftmals entscheidende Wettbewerbsvorteile für die Un­terneh­men.[6] Besonders im Bereich des Marketing erscheint die Anwendung von Data Mining Methoden vielversprechend. Denn traditionellen Marketinginstrumente sind unter Einsatz der bisherigern Informationssysteme den neuen Ansprüchen des Marktes, die auf einer zunehmenden Wettbewerbsverschärfung und der verstärkten Fragmentierung der Märkte in immer kleiner und differenzierte Marktsegmente beruhen, nicht mehr gewachsen.[7]

Bis 1995 wurde Data Mining nur durch hoch spezialisierte Berater oder Firmen im Auftrag von großen Einzelhandelsketten oder Finanzinstituten eingesetzt. Erst dann erlaubte die Markteinführung neuer Data Mining Software den generellen Einsatz in Data Warehouse Projekten. Seither ist die Bedeutung dieser Verfahren kontinuierlich angestiegen. Das Marktvolumen für Data Mining Produkte und Dienstleistungen wurde von der MetaGroup für das Jahr 2000 auf acht Milliarden US $ geschätzt.[8]

Ziel dieser Studienarbeit ist es, dem Leser zunächst einen Überblick über das Wesen des Data Mining zu geben. Neben der Definition findet deshalb eine umfassende Abgrenzung zu verwandten Themengebieten statt. Weiterhin erfolgt eine nähere Beschreibung der Data Mining Problemtypen, Methoden und des Ablaufs der Wissensextraktion. Im dritten Kapitel werden die Einsatzmöglichkeiten von Data Mining im Bereich des Marketing vor­gestellt und im Anschluss daran die Grenzen aufgezeigt. Der letzte Teil beinhaltet eine Zusammenfassung und soll einen kurzen Ausblick in die Zukunft geben, durch die Vorstellung moderner Abwandlungen des ursprünglichen Data Mining.

2. Grundlagen des Data Mining

2.1 Definition zentraler Begriffe und Abgrenzung

Unter Data Mining versteht man die Extraktion und Entdeckung von impliziertem, bisher nicht bekanntem und potenziell nützlichem Wissen aus Daten.[9] Nach Frawley, Piatetsky-Shapiro und Matheus, die als Wegbereiter des Data Mining gelten, muss eine klare Ab­grenzung zum Knowledge Discovery in Databases (KDD) stattfinden.[10] So ist Data Mining lediglich als ein Teilschritt im weit reichenden KDD-Prozess zu sehen, der sich aus­schließlich mit der Extraktion von Wissen aus Datenbeständen befasst.[11] Der Begriff KDD kann wie folgt definiert werden: KDD ist der nicht-triviale Prozess der Identifizierung vali­der, neuer, potenziell nützlicher und schließlich verständlicher Muster in Daten.[12] Heute verwenden die meisten Autoren die Begriffe jedoch synonym und beschreiben Data Mining als „the process of extracting previously unknown, valid and actionable information from large databases and then using the information to make crucial business decisions”.[13] Im weiteren Verlauf der Arbeit soll diese Definition von Data Mining gelten.

Data Mining umfasst ein äußerst umfangreiches Forschungsgebiet mit einer großen An­zahl von Forschungsdisziplinen. Die Wurzeln liegen in Gebieten wie der traditionellen Statistik und Datenanalyse, der künstlichen Intelligenz, der traditionellen Mustererken­nung, der Datenbank-Technologie sowie der Wirtschaftsinformatik.[14] Noch bis heute weist der gegenwärtige Stand der verfügbaren Data Mining Methoden strukturell hochgradige Ähnlichkeiten zur angewandten Statistik auf.

Wohingegen folgende Punkte als neu anzu­sehen sind:

- der Fokus auf die Wissensextraktion aus Data Warehouses
- die Konzentration auf Algorithmen, die sich auch für besonders umfangreiche Datensätze mit vielen Fällen und/oder Variablen eignen
- das Ziel der automatischen Generierung von Informationen
- die Zielsetzung „interessantes“, „bisher noch nicht bekanntes“ und „ökonomisch verwertbares“ Wissen zu gewinnen.[15]

Ein zentraler Unterscheidungsaspekt für die Abgrenzung des Data Mining zur klassischen Statistik hin ist die Differenzierung zwischen hypothesengetriebenen und hypothesen-freien Problemstellungen. Data Mining beschäftigt sich mit der Entdeckung von neuem Wissen. Dabei wird ohne konkrete Annahmen und datengetrieben, d.h. hypothesenfrei vorgegangen. Es findet keine vorherige Festlegung statt, welche Variabeln einen Zusam­menhang erklären. Auf diese Weise wird vermieden, dass die Suche nach Auffälligkeiten durch Vermutungen oder Präferenzen des Anwenders beeinflusst wird.[16] Eine derartige Vorgehensweise wird auch als Bottom-Up Vorgehen bezeichnet, wohingegen bei statistischen Anwendungen ein Top-Down Vorgehen erfolgt.[17] Die Variabeln, von denen angenommen wird, dass sie ein Phänomen erklären können, werden vom Anwender vor­gegeben und die daraus resultierende Hypothese anhand der vorliegenden Datenbe­stände gestützt oder widerlegt.[18] Multivariate statistische Verfahren sind in der Lage mehrere Variablen gleichzeitig zu analysieren.[19] Beim Einsatz von großvolumigen, operativen Daten stoßen diese Systeme jedoch an ihre Grenzen . Hinzu kommt, dass re­lativ hohe Anforderungen an den Anwender gestellt werden.[20]

Neben der traditionellen Statistik ist auch das On-Line Analytical Processing (OLAP) dem Datenanalyseziel der Hypothesenverifikation zuzurechnen.[21] OLAP ist eine Abfragemethode, welche interaktive und multidimensionale Datenanalysen ermöglicht. Ein Nachteil besteht in der Tatsache, dass es nicht fähig ist, komplexe Zusammenhänge zu entdecken und nur über ein beschränktes Methodenarsenal verfügt. Data Mining weiß die aufgezeigten Probleme dieser Verfahren zu lösen.[22]

2.2 Data Mining Methoden

Unter dem Oberbegriff Data Mining konkurrieren mehrere Methoden um ihren Einsatz. Jede dieser Technologien besitzt spezifische Vor- und Nachteile, aber keine ist fähig, alle Bedürfnisse in allen Anwendungsfeldern abzudecken.[23] Aus einer Vielzahl verfügbarer Methoden, sollen im Folgenden nur diejenigen näher vorgestellt werden, die im Rahmen des Data Mining hauptsächlich eingesetzt werden: Clusteranalysen, künstliche neuronale Netze (KNN), Entscheidungs­bäume sowie Assoziationsanalyse und Sequenzmuster.[24]

Ausgangspunkt der Clusteranalyse ist die fehlende bzw. noch undefinierte Klassenzuge­hörigkeit von Informationsobjekten. Diese wird erst im Rahmen des Verfahrens festgelegt. Ziel der Clusterbildung ist somit die explorative Konstruktion von unterschiedlichen Clustern, die in sich möglichst homogen und untereinander möglichst heterogen sein sollten.[25]

KNN stellt eine Methode der künstlichen Intelligenz dar. Dabei werden neurobiologische Vorgänge im menschlichen Gehirn in ein mathematisches Modell übertragen.[26] Dieses versucht durch seinen Aufbau interne Datenstrukturen wiederzugeben, ohne diese Strukturen dem Empfänger zu erläutern. Die Abwicklung und Entscheidungen des Data Mining Prozesses werden in einer „Black Box“ abgewickelt. Zwar können die Entschei­dungen überprüft werden, jedoch bleibt ein Erklärungsansatz aus. Für Anwendungen, die eine eindeutig nachvollziehbare Entscheidungsfindung verlangen, ist der Einsatz künstlicher neuronaler Netze somit gänzlich ungeeignet.[27]

Ein Entscheidungsbaum ist ein Vorhersagemodell, welches zur Objektklassifizierung dient. Wie der Name bereits andeutet, ähnelt die Ergebnisstruktur stark dem Aufbau eines Baumes.[28] Dieses Modell versucht, die in den Daten erhaltenen Trends bzw. Häufungen, durch allge­meine Regeln zu beschreiben. Darüber hinaus ist eine Rangfolge unter den

abgeleiteten Regeln möglich. Dem Anwender wird dadurch die zusätzliche Möglichkeit eröffnet, zwischen dem Grad der Datenunterteilung zu unterscheiden.[29] Der Aufbau eines Entscheidungsbaumes kann beispielsweise wie folgt aussehen:

Abbildung in dieser Leseprobe nicht enthalten

Abb.1: Aufbau eines Entscheidungsbaums[30]

Das Ergebnis einer Assoziationsanalyse sind Assoziationsregeln, die signifikante Ab­hängigkeiten zwischen den untersuchten Merkmalen beschreiben. Sie extrahieren häufig gemeinsam auftretende Objekte aus einem Datenbestand. Besonderen Stellenwert hat die Assoziationsanalyse bei der Warenkorbanalyse, wie in Kapitel drei noch näher be­schrieben wird.[31]

Der Einsatz von Sequenzmustern bzw. sequenzieller Muster setzt das Vorhandensein einer Datenhistorie voraus. Sie fokussieren darauf, dass innerhalb einer Zeitspanne Be­ziehungen zwischen dem Auftreten verschiedener Ereignisse eintreten.[32]

2.3 Data Mining Problemtypen

Um aus der Fülle von Data Mining Methoden diejenige herauszufiltern, die sich am besten zur Bearbeitung des vorliegenden Problemtyps eignet, lässt sich eine grundsätzliche Un­terscheidung zwischen Beschreibungs- und Prognoseproblemen treffen. Während bei den Beschreibungsproblemen die Deskription, also die Aufdeckung handlungsrelevanter Strukturen in den Daten im Mittelpunkt steht, soll bei den Prognoseproblemen aus den be- stehenden Merkmalen eines Informationsobjektes eine Aussage über unbekannte, zukünftige Merkmalswerte getroffen werden, auch Prädiktion genannt.[33] Da der Schwer­punkt dieser Arbeit auf den Anwendungsmöglichkeiten und Grenzen des Data Mining liegt, soll nur ein kurzer Überblick über die Problemtypen und die am häufigsten einge­setzten Methoden zur Lösung gegeben werden. Abbildung Nr.2 veranschaulicht die Problemtypen des Data Mining.

Abbildung in dieser Leseprobe nicht enthalten

Abb.2: Problemtypen im Data Mining[34]

Beschreibungsprobleme:

- Deskription: Beschreibung einprägsamer Strukturen, die noch nicht unmittelbar handlungsrelevant sind. Zum Einsatz kommen deskriptive, statistische Methoden wie die Visualisierungsmethode.
- Abweichungsanalyse: Automatische Erkennung abweichender Objektmerkmale, ins­besondere bei sehr vielen Merkmalen oder Informationsobjekten.
- Assoziation: Beschreibung interessanter Dependenzen oder Assoziationen zwi­schen Informationsobjekten. Geeignet hierfür sind z.B. Korrelations- oder Assoziationsanalysen.
- Gruppenbildung: Einteilung von Informationsobjekten in Klassen, welche durch ge­meinsame Merkmalsausprägungen beschrieben sind. Im Rahmen dessen werden häufig Clusteranalysen und KNN verwendet.
Prognoseprobleme:
- Klassifikation: Zuordnung neuer Informationsobjekte zu vorhandenen, definierten Klassen. Methoden zur Bearbeitung dieses Problems sind z.B. Regres-sionsanalysen, Klassifikationsbäume, KNN sowie genetische Algorithmen.
- Wirkungsprognose: Bestimmung einer unbekannten, zukünftigen Merkmalsausprägung eines Objektes auf Basis bekannter Attributswerte. Als gängige Methoden in diesem Bereich sind Regressionsbäume und -analysen, KNN, Box-Jenkins-Methoden und genetische Algorithmen zu nennen.[35]

2.4 Prozess der Wissensextraktion

Der Prozess der Wissensextraktion, also der eigentliche Data Mining Prozess, kann in sechs Teilschritte gegliedert werden. Die erste Phase befasst sich mit der Definition der Aufgabenstellung. In diesem Zusammenhang wird die Problemstellung genau definiert und die Ziele festgelegt.

Der zweite Schritt im Data Mining Prozess ist die Datenselektion. Zunächst wird entschie­den welche Daten relevant sind und benötigt werden. Eine Übersicht über die typischen Inhalte von Kundendaten, die besonders im Rahmen der später erläuterten Anwendungs­bereiche eine große Rolle spielen, soll Anlage 1 im Anhang geben.[36] Die Daten werden nun gesammelt und können je nach Bedarf in eine Rangfolge gebracht werden. Im Zuge dessen werden sie auf Vollständigkeit, Redundanz, fehlende und fehlerhafte Werte sowie Plausibilität der Merkmalsausprägungen überprüft.

Phase drei, die Datenaufbereitung, nimmt eine Schlüsselposition ein, da der Erfolg des gesamten Prozesses von ihr abhängt. Sie verbraucht die Hälfte des gesamten Arbeits­aufwandes. Zu Beginn wird entschieden, welche Informationen endgültig als Input dienen sollen. Um zu gewährleisten, dass die ausgewählten Daten den speziellen Anforderungen der geplanten Data Mining Methoden gerecht werden, kommen weitere Prüfungsverfah­ren wie z.B. Stichprobenabfragen oder Signifikanztests zum Einsatz. Die auf diese Weise bereinigten Daten können nun weiter angepasst werden. Eine Selektion nach Merkmalen und Bildung von Algorithmen führt zur Reduzierung der Dimensionen und durch die Ab­leitung neuer Attribute werden die Daten darüber hinaus verdichtet.[37]

Im vierten Schritt erfolgt die Entscheidung für die Data Mining Methoden und anhand des­sen die Extrahierung von Modellen. Diese Phase beinhaltet die Anwendung der geplanten Data Mining Methoden auf Basis der vorbereiteten Daten.[38]

[...]


[1] Vgl. McCue, C. (2003), http://goliath.ecnext.com/coms2/gi_0199-1214522/Data-mining-and-avalue-added.html (Stand: 27.12.2006)

[2] Vgl. Runkler, T. (2000), S. 5

[3] Vgl. Krzysztof, C.; Kurgan, L. (2005), S. 1

[4] Vgl. Knobloch, B. (2001), S. 62

[5] Vgl. Grob, L.; Bensberg, F. (1999), http://www.wi.uni-muenster.de/aw/download/publikationen/ ACGC8.pdf (Stand: 27.12.2006)

[6] Vgl. Berson, A.; Smith S.; Thearling K. (2000), S. 458

[7] Vgl. Wilde, K. (2001), S. 3

[8] Vgl. Schinzer, H.; Bange, C.; Mertens, H. (1999), S. 131

[9] Vgl. Frawley, W.; Piatetsky-Shapiro, G.; Matheus, G. (1991), S. 20

[10] Vgl. Ebenda, S. 8 f.

[11] Vgl. Freitas, A. (2002), S. 1

[12] Vgl. Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. (1996), S. 2

[13] Vgl. Wilde, K. (2001), S. 14

[14] Vgl. Küsters, U. (2001), S. 95 f.

[15] Vgl. Küsters, U. (2001), S. 123 f.

[16] Vgl. o.V. (o.J.a), http://www.dpunkt.de/leseproben/3-89864-309-3/Kapitel_2.pdf

a (Stand: 27.12.2006)

[17] Vgl. o.V. (o.J.a), http://www.dpunkt.de/leseproben/3-89864-309-3/Kapitel_2.pdf

aa(Stand: 27.12.2006)

[18] Vgl. Knobloch, B. (2001), S. 68

[19] Vgl. Hartung, J.; Elpelt B. (1995), S. 2 f.

[20] Vgl. Grob, L.; Bensberg, F. (1999), http://www.wi.uni-muenster.de/aw/download/publikationen/ aaCGC8.pdf (Stand: 27.12.2006)

[21] Vgl. o.V. (o.J.a), http://www.dpunkt.de/leseproben/3-89864-309-3/Kapitel_2.pdf

aa(Stand: 27.12.2006)

[22] Vgl. Grob, L.; Bensberg, F. (1999), http://www.wi.uni-muenster.de/aw/download/publikationen/ aaCGC8.pdf (Stand: 27.12.2006)

[23] Vgl. o.V. (2002), http://www.numberland.de/index.php?option=com_content&task= view&id=57& aaItemid=37 (Stand: 27.12.2006)

[24] Vgl. Schinzer, H.; Bange, C.; Mertens, H. (1999), S. 107

[25] Vgl. Wilde, K. (2001), S. 12

[26] Vgl. Homburg, C.; Krohmer H. (2006), S. 420 ff.

[27] Vgl. o.V. (2002), http://www.numberland.de/index.php?option=com_content&task=view&id=57& aaItemid=37 (Stand: 27.12.2006)

[28] Vgl. Berson, A.; Smith, S. (1997), S. 351

[29] Vgl. o.V. (2002), http://www.numberland.de/index.php?option=com_content&task=view&id=57& aaItemid=37&limit=1& limitstart=1 (Stand: 27.12.2006)

[30] In Anlehnung an: Schinzer, H.; Bange, C.; Mertens, H. (1999), S. 110

[31] Vgl. Petersohn, H. (2005), S. 102

[32] Vgl. Weingärtner, S. (2001), S. 891

[33] Vgl. Küsters, U. (2001), S. 102 ff.

[34] Enthalten in: Hippner H.; Wilde K. (2001), S. 64

[35] Vgl. Hippner H.; Wilde K. (2001), S. 64

[36] Siehe Anlage 1, S. 21

[37] Vgl. Krzysztof, C.; Kurgan, L. (2005), S. 7

[38] Vgl. Krzysztof, C.; Kurgan, L. (2005), S. 7

Ende der Leseprobe aus 32 Seiten

Details

Titel
Data Mining: Möglichkeiten und Grenzen
Hochschule
Duale Hochschule Baden-Württemberg, Stuttgart, früher: Berufsakademie Stuttgart
Veranstaltung
Marketing
Note
2,0
Autor
Jahr
2006
Seiten
32
Katalognummer
V70560
ISBN (eBook)
9783638629058
Dateigröße
523 KB
Sprache
Deutsch
Anmerkungen
Grundlagen, Anwendungsmöglichkeiten, Grenzen und Perspektiven des Data Mining
Schlagworte
Data, Mining, Möglichkeiten, Grenzen, Marketing
Arbeit zitieren
Jana Andreas (Autor), 2006, Data Mining: Möglichkeiten und Grenzen, München, GRIN Verlag, https://www.grin.com/document/70560

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Data Mining: Möglichkeiten und Grenzen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden