Inhaltsverzeichnis
Abbildungsverzeichnis
Abkürzungsverzeichnis
1 Einleitung
2 Customer Relationship Management
2.1 Begriff und Ziele des CRM
2.2 Aufbau von CRM-Systemen
2.2.1 Kommunikatives CRM
2.2.2 Kollaboratives CRM
2.2.3 Operatives CRM
2.2.3.1 Marketing
2.2.3.2 Vertrieb
2.2.3.3 Service
2.2.4 Analytisches CRM
3 Theorie des Data Mining
3.1 Historische Einordnung
3.2 Methoden des Data Mining
3.2.1 Descriptive Methoden
3.2.1.1 Assoziierung
3.2.1.2 Clusterung
3.2.1.2.1 Partitionierende Clusterverfahren
3.2.1.2.2 Hierarchische Clusterverfahren
Agglomerative Methoden
Diversive Methoden
3.2.2 Prescriptive Methoden
3.2.2.1 Klassifizierung
3.2.2.1.1 Entscheidungsbäume
3.2.2.1.2 Diskriminanzanalyse
Maximum-Likelihood-Methode
3.2.2.2 Neuronale Netzwerke
3.3 Probleme Data Mining
4 Praktischer Einsatz von Data Mining
4.1 Beispiel 1 – Assoziierung
4.2 Beispiel 2 – Entscheidungsbaum
5 Fazit
Literaturverzeichnis
Monographien und Herausgeberwerke
Internetquellen
Eidesstattliche Erklärung Fehler! Textmarke nicht definiert
Abbildungsverzeichnis
Abb. 1: ABC-Analyse
Abb. 2: Gewinnanteile Kunden
Abb. 3: Aufbau von CRM-Systemen
Abb. 4: Methoden des Data Mining
Abb. 5: Vektoren in einem Vektorraum
Abb. 6: Dendrogramm
Abb. 7: Entscheidungsbaum Kreditvergabe
Abb. 8: Gruppeneinteilung Kartoffelernte
Abb. 9: Entstehung eines neuronalen Netzes
Abb. 10: Beispiel 1, Daten aus Scannerkassensystem
Abb. 11: Beispiel 2, Entscheidungsbaum
Abb. 12: Beispiel 2, Entscheidungsbaum
Abb. 13: Beispiel 2, Entscheidungsbaum
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Die Unternehmen in den Industrienationen (Europa und Nordamerika) befinden sich im Umbruch. Der große Konkurrenzdruck lässt die Unternehmen darüber nachdenken, wie der vorhandene Kundenstamm gesichert und neue Kunden hinzugewonnen werden können.
Ein überall zu hörendes Schlagwort, dieses Problem zu lösen, ist Customer Relationship Management oder kurz CRM.
Zu diesem Thema hat sich in den letzten zwei Jahrzehnten ein regelrechter Hype gebildet.
Bereits unzählige Autoren und Forscher haben dieses Thema aufgegriffen und verschiedenste Theorien entwickelt. Auf dem Markt der IT-Branche bilden sich fast täglich neue Unternehmen, die anbieten, die Unternehmensstrategie nach dem Customer Relationship Management auszurichten.
In den Universitäten hat CRM und das damit verbundene Data-Warehouse-System längst Einzug gehalten und gehört zum Lernstoff, wie beispielsweise die Kostenrechnung.
Der Hype um CRM lässt sich schnell erkennen, wenn man nach „CRM“ googelt. Nach 0,07 Sekunden erhält man bei einer Suche auf deutschsprachigen Seiten 1.790.000 Ergebnisse. Eine vergleichbare Suche nach „Kostenrechnung“ bringt lediglich 596.000 Ergebnisse.
Einige Forscher sprechen in Ihren Publikationen bereits von einem Paradigmenwechsel im Marketing.
Um eine Unternehmensstrategie nach dem CRM auszurichten, benötigt man möglichst riesige Mengen an vielschichtigen Kundendaten. Diesen Bestand aus Kundendaten zu analysieren ist Aufgabe des Data Mining.
Diese Arbeit soll einen Überblick über die CRM-Systeme geben und wie diese mit den Methoden des Data Mining optimiert werden können.
2 Customer Relationship Management
2.1 Begriff und Ziele des CRM
Hinter dem Begriff Customer Relationship Management (CRM) verbirgt sich die Verwaltung von Kundebeziehungen.
Diese Aufgabe ist in den letzten Jahren stetig gestiegen. War es früher wichtig, die Absatzbemühungen produktorientiert auszurichten und durch einfache Produktwerbung zu unterstützen, rückt heutzutage der Kunde mehr und mehr in den Mittelpunkt des Unternehmerdenkens.
Dies ist vor allem darauf zurückzuführen, dass sich in der Wirtschaft ein hoher Grad an Konkurrenzdruck gebildet hat. Diese Konkurrenz zwischen den Anbietern hat dazu geführt, dass Kunden sehr schnell bereit sind, Geschäftsbeziehungen zu einem Anbieter aufzugeben und zu einem anderen zu wechseln. Dieses Wechseln des Anbieters ist häufig nicht nur auf die Qualität und den Preis eines Produktes zurückzuführen, sondern häufig auch auf den Service des Anbieters. Gerade in der Zeit der kürzer werdenden Produktlebenszyklen spielt der Aspekt Service eine wichtige Rolle.
Verlorene Kundenbeziehungen müssen zudem mit Einsatz hoher Marketingkosten ersetzt werden. Es ist also einfacher, vorhandene Kunden zu pflegen, als neue Kunden zu gewinnen.
Mit Hilfe des CRM sollen die Beziehungen zwischen dem Unternehmen und dem Kunden gefördert werden. Mit Hilfe existierender Informations- und Kommunikationstechnologien ist es möglich, Kunden nach dem „Tante-Emma-Prinzip“ zu verwalten. Die ideale Vorstellung ist, dass ein Unternehmen den Kunden und seine Gewohnheiten kennt, um so seinem „Freund“, dem Kunden, sagen zu können, was er benötigt und daher kaufen sollte.
Das bedeutet, dass die Gewinnung von Informationen über den einzelnen Kunden unerlässlich ist, um selbst auf Massenmärkten die Marketing-, Absatz- und Vertriebstätigkeiten genau auf die Bedürfnisse des Kunden auszurichten.
Es gibt viele Unternehmen, die mit einem kleinen Teil ihres Kundenstammes den größten Gewinn erzielen, jedoch einen großen Kundenstamm besitzen, der nur einen geringen oder sogar negativen Gewinnbeitrag liefert.
Die Aufgabe des CRM besteht darin, die Kunden an das Unternehmen zu binden, die für das Unternehmen auf lange Sicht profitabel erscheinen.
Um herauszufinden, welche Kunden für das Unternehmen profitabel erscheinen, bietet sich beispielsweise eine ABC-Analyse des Kundenstammes an. Mit Hilfe der ABC-Analyse lässt sich der Beitrag der vorhandenen Kunden am Unternehmenserfolg sichtbar machen. Die Kunden werden hierzu in die Gruppen A, B und C eingeteilt. Gruppe A stellt die wichtigsten Kunden, die also anteilsmäßig den größten Umsatz erbringen dar, Gruppe C die eher unwichtigeren.[1]
Abbildung in dieser Leseprobe nicht enthalten
Abb. 1: ABC-Analyse
Neben der Aufteilung der Kunden nach der ABC-Analyse kann eine Aufteilung auch anhand einer Kundenportfolio oder nach dem Share of Wallet erfolgen. „Der Share of Wallet (SoW), auch Share of Customer genannt, bezeichnet den Anteil des Unternehmens am spezifischen Einkaufsvolumen des Kunden.“[2] Der Vorteil, den Share of Wallet zu steigern, liegt darin, dass Kunden, die einen hohen Anteil des Einkaufsvolumens bei einem Unternehmen haben, länger gebunden bleiben, als andere Kunden.
Diese Kunden müssen durch geeignete Mittel direkt, dass heißt nicht durch bloße Marketingmaßnahmen in Rundfunk, Fernsehen und Zeitschriften, umworben werden, so dass sie merken, dass sie dem Unternehmen wichtig sind.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2: Gewinnanteile Kunden[3]
Fokussierung auf lukrative Marktpotenziale, direkte Wertschöpfungsketten, nachgefragte Kernkompetenzen und marktnahe Leistungsangebote sind die vier Schwerpunkte, die eine erfolgreiche CRM-Strategie auszeichnen.[4]
Unternehmen, die Ihre Strategie nach dem CRM ausrichten, forschen permanent nach neuen Kundenbedürfnissen. Diese Informationen liefern beispielsweise Trends, Umfragen und Informationen von Lieferanten oder dem Vertrieb. So können die Unternehmen, die sich auf lukrative Marktpotenziale fokussiert haben, auf eine Verschiebung des Marktes rechtzeitig einstellen und reagieren. Da der Vertrieb im permanenten Kundenkontakt steht, ist es ihm möglich, Informationen über die Konkurrenz, wie beispielsweise Ansehen oder neue innovative Produkte, zu sammeln. Auch diese Informationen können entscheidend auf die Strategie des Unternehmens einwirken.
CRM liefert Informationen, nach dem die Unternehmen Ihre Stärken / Kernkompetenzen klar definieren können. Da diese Kernkompetenzen kundenorientiert sind, wird so die Wettbewerbsfähigkeit langfristig gestärkt und Markteintrittsbarrieren für mögliche Konkurrenten geschaffen.
Um die Stärken eines Unternehmens kunden-/marktbezogen ausrichten zu können, bedarf es direkter Wertschöpfungsketten. So zeichnet sich ab, dass Unternehmen, die CRM nutzen, in die beiden Wertschöpfungsketten Leistungserstellung und Leistungsvermarktung einteilen. Unternehmen können so wesentlich agiler wirtschaften, als wenn bei einer Marktveränderung eine große Apparatur umgeschichtet werden muss.
Wie bereits oben beschrieben, ist das marktnahe Leistungsangebot einer der vier Schwerpunkte des CRM.
Marktnahes Angebot heißt, dass sich der Zyklus des Angebots mit den Marktbedürfnissen der Kunden deckt. Dies erfordert von den Unternehmen ein hohes Maß an Schnelligkeit, wenn es darum geht, dass angebotene Sortiment umzustellen. Die Informationen liefern auch hier wieder Umfragen, Trends und vor allem der direkte Kundekontakt.
Unternehmen, die CRM nutzen wollen, müssen verstehen, das Customer Relationship Management keine „Marketingaktion“, sondern vielmehr eine Unternehmensstrategie ist, die neben dem Bereich Marketing auch alle anderen Sektoren des Unternehmens, wie zum Beispiel Vertrieb, Service, Einkauf usw. mit einschließt.
2.2 Aufbau von CRM-Systemen
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3: Aufbau von CRM-Systemen
Customer Relationship Management wird in das kommunikative, das kollaborative, das operative und das analytische CMR aufgeteilt. Diese einzelnen Bereiche müssen optimiert bzw. der Erfolg maximiert werden, damit ein CRM-System funktionieren kann.
2.2.1 Kommunikatives CRM
Das kommunikative CRM beinhaltet die Steuerung aller Kommunikationskanäle zum Kunden.
Hier werden alle Kanäle, mit dem das Unternehmen Kontakt zum Kunden und der Kunde Kontakt zum Unternehmen aufnehmen kann, verwaltet und aufeinander abgestimmt.
Die Leitung der Gesamtkommunikation übernehmen heutzutage so genannte Customer Interaction Center (CIC), die eine Weiterentwicklung der klassischen Call Center sind. Neben dem Telefon nutzen die CIC folgende Kommunikationskanäle oder auch Customer Touch Points:[5]
- Internet (Webseiten, Webformulare/Umfragen, Chats, Voice over IP, etc.)
- Email
- Mailing
- Fax
- SMS/MMS
- Mobiles Internet (WAP, UMTS)
Der Kunde bekommt aufgrund der Integration der bisher isolierten Kommunikationskanäle in einem System die Möglichkeit, eine schnelle und kompetente Antwort auf seine Anfrage zu erhalten, gleich welchen Kanal er bevorzugt.
Einen besonders hohen Stellenwert haben die Kommunikationskanäle Telefon, Internet und mobiles Internet. Im Folgenden sollen die Vorteile des Telefons anhand des Call Centers verdeutlicht werden.
Der große Vorteil von Call Centern liegt in Ihrer Outbound- und Inboundfunktionalität.
So ist es via Telefon möglich, zum Kunden Kontakt aufzunehmen, was in der Literatur als Outboundfunktionalität beschrieben wird, als auch Telefonate von Kunden entgegenzunehmen, was dementsprechend als Inboundfunktionalität beschrieben wird.[6]
Man geht heute dazu über, die Telefonanlagen mit dem Computer zu vernetzen. So ist es möglich, dass der Kunde anhand seiner eingeblendeten Telefonnummer sofort identifiziert wird. Der Angestellte, der das Telefonat mit dem Kunden führt, erhält somit sofort alle wichtigen Informationen über den Kunden, wie beispielsweise Anschrift, genutzte Produkte des Kunden oder Hinweise über spezielle Behandlung des Kunden auf seinem Monitor. Diese Art der Vernetzung nennt man Computer Telephony Integration (CTI).
Die Vernetzung zwischen Telefon und PC ist sowohl als Einzelplatzlösung (First Party Call Control) möglich, als auch als Mehrplatzlösung (Third Party Call Control) über einen Server.[7]
Interactive Voice Response Systeme werden beispielsweise bei Paketdiensten, wie DHL, TNT und DPD eingesetzt. Sie gestatten dem Kunden via Telefon eine Eingabe seines Anliegens verbal oder per Tastendruck. Mit Hilfe dieses Systems wird der Kunde direkt in die richtige Abteilung des Unternehmens geleitet, ohne dass er sein Problem mehreren Mitarbeitern erklären muss und in Warteschleifen hängt.
Die mit Hilfe des Call Centers erhaltenen Informationen, Aufträge, Reklamationen usw. können mit Hilfe von Workflowsystemen direkt weiter verarbeitet werden. So ist beispielsweise denkbar, dass der Mitarbeiter des Service Centers eine eingehende Bestellung direkt in den Terminkalender des Außendienstmitarbeiters eintragen kann, so dass dieser die Bestellung weiter bearbeiten kann.
Auch das ständig wachsende Internet bietet für das CRM ein großes Potenzial. Der neue Trend des CRM heißt eCRM und ist die Umsetzung von CRM im E-Commerce.
Da Kunden mehr und mehr im Internet einkaufen oder sich online über Produkte informieren möchten, um so nicht mehr an die Ladenöffnungszeiten gebunden zu sein, ist es Aufgabe des CIC, dieses Medium entsprechend zu nutzen.
Die Homepage des Unternehmens muss so gestaltet werden, dass es dem Kunden möglich ist, umfassend über ein Produkt beraten zu werden. Dabei darf die Benutzerfreundlichkeit jedoch das Shoppingerlebnis nicht trüben. Es gibt verschiedene Varianten, dem Kunden die Informationen über die Produkte zu vermitteln. Allem voran stehen wohl die FAQ (Frequently Asked Questions), eine Zusammenstellung der am häufigsten gestellten Fragen. Neben dem FAQ ist es möglich, mit so genannten „Call-me-Back-Buttons“ das Call Center mit dem Internet zu verbinden. Mit Hilfe dieses Buttons kann der Kunde um Rückruf bitten, wenn er zu Produkten oder Dienstleistungen fragen hat.
Sehr interessant für das CRM sind die „Spuren“, die der Kunde bei seinem Besuch auf der Webseite in Form von Cookies hinterlässt. So werden in den Log Files der Web Server alle Schritte jedes Kunden erfasst und festgehalten. Die Gewohnheiten und Interessen der Kunden können auf diese Weise unbemerkt festgehalten werden. Diese „Spuren“ stellen neues Datenmaterial dar, welches ausgewertet werden muss, um beispielsweise den Aufbau und das Design der Webseite zu optimieren.
2.2.2 Kollaboratives CRM
In einigen Literaturquellen wird neben dem kommunikativen CRM auch das kollaborative CRM genannt. Diese Quellen behandeln das kollaborative CRM nicht identisch. Während teilweise nur das Wort „kommunikativ“ durch „kollaborativ“ ersetzt wird,[8] beschreiben andere Autoren das kollaborative CRM eher als CRM über die Unternehmensgrenzen hinaus.[9]
Hierunter wird verstanden, dass zwischen Lieferanten, externen Vertriebskanälen, externen Dienstleistern und Logistikunternehmen ein einheitliches CRM-Konzept genutzt wird, um so die gesamten Prozesskosten zu minimieren und die Prozessgeschwindigkeiten zu maximieren.
2.2.3 Operatives CRM
Aufgabe des operativen CRM ist es, Softwareanwendungen, die für den direkten Kontakt zwischen Kunden und Unternehmen nötig sind, anzupassen und zu optimieren.
Somit sind die hauptsächlichen Betätigungsfelder des operativen CRM das Marketing, der Vertrieb und der Service, da diese Unternehmensbereiche den häufigsten Kontakt mit dem Kunden haben.
2.2.3.1 Marketing
Im Marketing übernimmt das operative CRM die Überlegungen, wie dem richtigen Kunden das richtige Informations- und Leistungsangebot mit dem richtigen Kommunikationskanal zum richtigen Zeitpunkt vermittelt werden kann.[10] Hierzu kann entweder aktionsorientiert oder kundenorientiert vorgegangen werden.
Bei der aktionsorientierten Vorgehensweise werden Kunden oder Kundengruppen ausgewählt, welche die beste Reaktion auf eine gegebene Marketingaktion vermuten lassen. Die relevanten Kunden lassen sich beispielsweise mit der bereits oben angesprochenen ABC-Analyse oder der Aufteilung nach dem Share of Wallet ermitteln.
Diese Kunden werden dann mit der Marketingaktion konfrontiert. Die Aktionen sollten im Verbund mit bereits gelaufenen Aktionen optimal / kongruent verlaufen.
Der kundenorientierte Ansatz wird individuell auf die Bedürfnisse jedes Kunden angepasst. Ziel ist es, die optimale Aktion und den optimalen Zeitpunkt herauszufinden. Der Erfolg dieses Ansatzes besteht darin, dass die Marketingaktion sich zeitlich an die Bedürfnisse der Kunden richtet.
Grundlage für diese beiden Ansätze sind ausgeprägte Kundenanalysen für jeden einzelnen Kunden, die aufgrund seiner Kaufgewohnheiten und Kontaktaufnahmen auf die richtigen Aktionen und richtigen Zeitpunkte schließen lassen.
Für die Marketingaktionen werden die aus dem kommunikativen CRM bekannten Kommunikationskanäle genutzt.
Nach einer abgelaufenen Kampagne erfolgt eine Wirkungsanalyse, die dem Unternehmen helfen soll, zukünftige Marketingaktionen noch effizienter auf den Kunden anzupassen.
2.2.3.2 Vertrieb
Im Vertrieb übernimmt das operative CRM die Aufgabe, dem Verkauf die bestmöglichen Hintergrundinformationen über einen Kunden zu verschaffen. Zudem können alle Angebote, die nicht zu einem Auftrag geführt haben, mit Hilfe der Lost Order Analyse genutzt werden, um die strategische Vorgehensweise des Unternehmens zu ändern.[11]
Mit Hilfe der CRM-Systeme kann der Verkäufer auf die so genannte Sales Cycle Analyse zurückgreifen, die es ihm ermöglicht, den Kontakt zu seinen Kunden in Intervalle zu unterteilen. Dies macht beispielsweise bei Handyverträgen Sinn, da diese in einem Zwei-Jahresrhythmus ablaufen. Die Kontaktaufnahme soll verhindern, dass der Kunde „genötigt“ ist, sich anderweitig, bei der Konkurrenz, über dessen Produkte zu informieren.
Mit CRM-Systemen lassen sich die Vorgehensweisen der Verkäufer in mehrere Stufen, wie beispielsweise Erfassung, Pflege und Qualifizierung eines Kundenkontakts einteilen. Eine Abfrage über den derzeitigen Stand mit diesem Kunden ist so jederzeit möglich.
CRM-Systeme können so genannte Interactive Selling Systeme (ISS) beinhalten.[12] Diese geben sowohl dem Verkäufer als auch anderen Verkaufskanälen, wie z.B. dem Internet, die Möglichkeit Informationen in Form von elektronischen Produktkatalogen sofort zur Hand zu haben.
Der große Vorteil der ISS besteht darin, dass konfigurierbare Komponenten interaktiv zusammengestellt werden können. Die Vernetzung der Systeme erlaubt es, dem Kunden sofort Angaben über Preise, Lieferzeit, Zahlungsbedingen usw. seiner Auswahl zu nennen.
Ein sehr bekanntes Beispiel ist die Firma Dell GmbH, die dieses Verfahren nutzt. Auf der Homepage dieser Firma können sowohl Privat- als auch Firmenkunden sich Ihren Computer plus Zubehör zusammenstellen. Der Kunde bekommt die Möglichkeit, aus mehreren Standartlösungen zu wählen, die er dann individuell anpassen kann. Mit Hilfe der Software ist es dem Kunden sofort möglich zu ersehen, wie sich die Konfiguration des Produktes auf den Endpreis auswirkt. Nach Bestellung erhält der Kunde ein Zugangspasswort, mit dem er jederzeit den aktuellen Stand seiner Bestellung ersehen kann. Die Dell GmbH gibt dem Käufer des Weiteren die Möglichkeit, zwischen verschiedenen Serviceleistungen, wie einem 30-Tage-Onlinetraining oder einer Verlängerung der Gewährleistung von 12 auf 36 Monate zu wählen.
2.2.3.3 Service
Das operative CRM wird im Bereich Service ähnlich genutzt, wie im Vertrieb. Auch hier benötigen die Mitarbeiter, die im Kontakt mit dem Kunden stehen, schnellstmöglich alle relevanten Informationen. Das ISS kann in der Serviceabteilung ebenfalls eingesetzt werden. Somit ist es dem Servicemitarbeiter möglich, den Kunden sofort zu informieren, wie schnell ein fehlendes Ersatzteil beschafft werden kann.
Ein Vorteil des Einsatzes von CRM-Systemen im Servicebereich ist, dass Statistiken darüber erstellt werden können, welche Produkte nach welchem Zeitraum welchen Defekt vorweisen. So kann eine entsprechende Ersatzteilversorgung sichergestellt werden. Eine Ursachenanalyse häufig auftretender Fehler kann zur Verbesserung zukünftiger Produkte beitragen und so die Qualität steigern.
2.2.4 Analytisches CRM
Um Geld zu erwirtschaften, benötigt man Kunden. Kunden stellen somit das eigentliche Vermögen von Vertriebs- und Marketingabteilungen dar.[13] Diese Kundendaten zu sammeln, zu archivieren und zu analysieren ist Aufgabe des analytischen CRM.
Das inhaltliche Kopieren und Aufarbeiten der Daten aus unterschiedlichsten Quellen erfolgt in einem Data-Warehouse, also einem Datenlager.
Die in einem Data Warehouse gespeicherten Daten müssen miteinander vergleichbar sein. Da die Daten aus den unterschiedlichsten Quellen gewonnen werden, müssen diese entsprechend transformiert werden, bevor sie abgelegt werden können.
In der Literatur gibt es Widersprüche in Bezug auf eine Definition von Data-Warehouse-Systemen. Einige Autoren meinen, dass es bisher keine eindeutige Definition für diesen Begriff gibt.
Man ist sich jedoch einig, dass die Daten nicht mehr für eine Erfüllung einer Aufgabe, z.B. die Personaldatenverwaltung dienen, sondern auf der Modellierung eines spezifischen Anwenderziels. Des Weiteren werden Daten, die einmal in das System eingebracht sind, nicht mehr entfernt oder geändert. Datensätze können lediglich durch neue Daten erweitert werden. Diese müssen so abgelegt werden, dass der zeitliche Unterschied der Eingabe erkennbar ist.[14]
Daten, die in einem Data Warehouse abgelegt werden können, sind beispielsweise Stammdaten des Kunden, Kaufhistorien, Aktionsdaten oder Reaktionsdaten. Da diese Daten die Basis des Customer Relationship Managements darstellen, sollten sie so viele Informationen wie möglich beinhalten.
Die gesammelten Informationen können mit Hilfe von OLAP (Online Analytical Processing) und / oder Data Mining analysiert werden.
In dem nachfolgenden Kapitel dieser Arbeit soll dargestellt werden, wie Data Mining dazu genutzt werden kann, die gesammelten Daten zu analysieren. Diese Analysen dienen dazu, die Aktionen rund um die Customer Touch Points zu optimieren und somit neben einer steigenden Kundenzufriedenheit auch die Kosten für diese Aktionen zu senken. Die Ergebnisse der Data Mining Analysen gehen dann auch wieder in das Data-Warehouse-System als neue Daten ein.
„CRM wird zum lernenden System (Closed Loop Architecture), in dem Kundenreaktionen systematisch genutzt werden, um Abstimmung von Kundenkommunikation, Produkten und Dienstleitungen auf fein differenzierte Kundenbedürfnisse kontinuierlich zu verbessern.“[15]
3 Theorie des Data Mining
3.1 Historische Einordnung
Da sich mit den bestehenden Analysemethoden die gewaltigen Datenmengen nicht mehr bewältigen ließen, wurde Ende der 80er Jahre die interdisziplinäre Forschungseinrichtung Knowledge Discovery in Databases KDD gegründet.[16]
Ziel dieser Forschungsrichtung war es, durch Verschmelzung vorhandener Forschungsrichtungen - wie beispielsweise Statistik, Datenbanksysteme oder Neuronale Netze - Methoden zu entwickeln, die selbstständig Wissen in großen Datenbeständen entdecken.[17] Mit der Aufgabe Daten zu analysieren, kann Data Mining als Teilprozess des Knowledge Discovery in Databases gesehen werden.
Anfang der 90er Jahre wurden die ersten Prototypen vorgestellt, die in der Astronomie, Aktienmärkten, Chemie, Medizin, Meteorologie und der volkswirtschaftlichen Statistik eingesetzt wurden.
Die ersten Prototypen waren in der Betriebswirtschaftslehre vor allem im Bereich Marketing interessant. Dem folgten die Bereiche Finanzierung, Investition und Produktion. Mitte der 90er Jahre wurden die Forschungsergebnisse dadurch gefördert, dass sich immer mehr Unternehmen der IT-Branche mit den Werkzeugen des Data Mining beschäftigten, um diese zu verbessern.[18]
3.2 Methoden des Data Mining
Die automatische Suche von bestimmten Daten in großen Datenmengen nennt man Data Mining. Dieser Begriff steht für das Schürfen nach Daten (Data = Daten; to mine = schürfen nach).[19]
Nach Lusti ist Data Mining eine „automatische und nichttriviale Suche nach Wissen“[20]. Die nichttriviale Suche beruht darauf, dass mit Hilfe des Data Mining Massendaten mit Hilfe verschiedener Methoden aus den Bereichen Statistik und Mathematik durchsucht werden können.
Als Grundlage eines Analyseansatzes mit einer Data Mining Methode steht eine Fragestellung, wie beispielsweise: „Wie ist die Kaufkraft der Kunden aus dem Ruhrgebiet?“. Mit Hilfe der Data Mining Methoden müssen nun die bekannten Datenmengen nach bestimmten Beziehungsmustern, z.B. Umsatz mit Kunden im Ruhrgebiet und Umsatz mit Kunden gesamt, durchsucht und das Ergebnis durch logische oder funktionale Beziehungszusammenhänge abgebildet werden.[21]
Data Mining kann für die verschiedensten Bereiche eines Unternehmens eingesetzt werden. So kann es beispielsweise für den Absatzbereich eingesetzt werden, um herauszufinden, wie viele und welche Kunden auf ein Direct Mailing des Unternehmens Interesse bekundet haben. Ebenso können die Zahlungsgewohnheiten der Kunden in verschiedene Klassen unterteilt werden.
Das berühmteste Beispiel für den Einsatz von Data Mining Methoden ist der Onlinebuchhandel der Firma Amazon.com Int'l Sales, Inc. Diese Firma speichert von jedem Kunden die Daten, welche Artikel angeklickt und welche gekauft wurden. Diese Daten werden ausgewertet und mit anderen Kundendaten verglichen. So ist es Amazon, aufgrund der gesammelten Daten aus Kundengewohnheiten und Kundenverhalten, möglich, automatisch für jeden Kunden eine Liste mit Artikeln zu erstellen für die sich dieser Kunde interessieren könnte.
Data Mining nutzt verschiedene Methoden, um die Daten analysieren zu können. Die unterschiedlichen Methoden lassen sich hierbei in beschreibende (descriptive) und vorhersagende (prescriptive) Methoden einteilen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4: Methoden des Data Mining
3.2.1 Descriptive Methoden
„Die beschreibenden Methoden versuchen - wie der Name schon sagt - die Daten zu beschreiben; d.h. die Daten werden aufgrund ihrer Attributwerte charakterisiert und dabei die generellen Eigenschaften, Regelmäßigkeiten und Besonderheiten herausgearbeitet.“[22]
Assoziierung und Clusterung sind zwei beschreibende Methoden, auf die ich weiter eingehen werde.
3.2.1.1 Assoziierung
Der Begriff Assoziierung ist von dem lateinischen Wort „associare“ abgleitet und bedeutet vereinigen, verbinden oder beigesellen.
Dies spiegelt auch die Vorgehensweise dieser Methode wieder. Es „werden Muster von korrelierten Elementen in Dateneinheiten gefunden. Dies können Regeln sein, die Zusammenhänge zwischen Elementen eines Datensatzes beschreiben (Assoziationsregeln), oder Muster im Auftreten von Elementen in zusammengehörigen Datensätzen (Sequenzmustern)“[23].
Die Assoziierungsmethode ist für das Data Mining besonders vorteilhaft, da sie nur auf Regeln zurückgreift, die der vorgegebene Datenbestand hervorbringt und keine Hypothesen verwendet werden.
Es ist nicht sinnvoll, einen Datenbestand nach Regeln zu durchsuchen, ohne diese vorher einzugrenzen, da man auf diese Weise sicher eine große Menge an Regeln finden wird, die in der Realität nicht sinnvoll wären.[24]
So kann man für die Regelsuche die Parameter Support, Confidence und Lift einsetzen, die die Ergebnisse eingrenzen.
Der Parameter Support gibt die Relevanz der Regel im Vergleich zur Gesamtheit an, das heißt, dieser Wert gibt an, auf wie viel Prozent diese Regel auf die Gesamtheit der Datensätze zutreffen muss.
Confidence gibt die Stärke einer Regel an. Das heißt, wurde eine Regel gefunden, so muss diese auf den angegebenen Prozentsatz aller Daten angewendet werden können, bevor daraus eine Regel entsteht. Der Liftwert gibt die Abweichung vom Durchschnitt aller Objekte an.
Um das Warenangebot auf die Kundenwünsche anzupassen oder gezielte Marketingaktionen durchführen zu können, wird die Assoziierung für die Warenkorbanalyse genutzt. Es sollen aus der Masse der Transaktionen Trends gefunden werden, die das Kaufverhalten der Kunden widerspiegeln.[25]
„Ein Beispielergebnis wäre etwa: „80% aller Kunden, die Bier kaufen, haben auch Chips im Einkaufskorb“.“[26]
Würde man in diesem Beispiel den Support auf 15 % und den Confidence auf 75 % angeben, so müsste diese Regel, dass Kunden, die Bier kaufen, auch Chips kaufen auf mindestens 15 % aller Daten zutreffen. Der Confidence von 75 % wurde auch erfüllt, da sogar 80 % aller Kunden Chips gekauft haben, die auch Bier gekauft haben. Ein Lift von 4,2 würde angeben, dass alle Käufer, die Bier gekauft haben, 4,2 mal häufiger Chips gekauft haben, als andere.
3.2.1.2 Clusterung
Bei dem Verfahren der Clusterung werden die Daten in Abhängigkeit Ihrer Ähnlichkeits- bzw. Verschiedenheitsmerkmalen in Gruppen (Cluster) aufgeteilt. Die Daten, die nach der Clusterung in einer Gruppe zusammengefasst sind, sollten möglichst gleich, und die, die in unterschiedlichen Gruppen zusammengefasst sind sollten möglichst verschieden sein.
Um die Daten in einem Cluster zusammenfassen zu können, werden die einzelnen Beobachtungswerte meist in Form von Vektoren als Punkte in einem Vektorraum dargestellt.[27]
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5: Vektoren in einem Vektorraum
Die Beobachtungswerte müssen nun in Clustern gruppiert werden. Dabei wird versucht, eine optimale Anzahl von Clustern zu finden, indem man die Beobachtungswerte gruppiert, die einen geringen Abstand zueinander haben.
Für die Aufteilung der Beobachtungswerte nach Clustern gibt es zwei Verfahren: Das partitionierende Clusterverfahren und das hierarchische Clusterverfahren.
3.2.1.2.1 Partitionierende Clusterverfahren
In der Literatur wird das partitionierende Clusterungsverfahren fast ausschließlich mit dem K-Means-Algorithmus verglichen. „Der k-Means-Algorithmus geht auf eine Arbeit von MacQueen aus dem Jahre 1967 zurück ... Darin untersucht er die Partitionierung einer n-dimensionalen Menge, der Grundgesamtheit, in k Mengen auf der Grundlage von Stichproben.“[28]
Um die Beobachtungswerte mit dem partitionierenden Clusterverfahren zu gruppieren, wird zufällig eine bestimmte Anzahl von Objekten ausgewählt. Diese werden zu Clusterzentren. Die Beobachtungswerte, die nun noch übrig sind, werden nun dem Clusterzentrum zugewiesen, zu dem der Abstand im Vektorraum der geringste ist. Für jedes Cluster werden die Clusterzentren neu berechnet. Dieser Vorgang muss so oft wiederholt werden, bis die optimalen Cluster vorliegen.
„Die partitionierenden Methoden suchen nach unbekannten Datenmustern. Ziel der Algorithmen ist es, die vorhandenen Daten in möglichst trennscharfe Klassen einzuteilen.“[29]
Bei der Berechnung mit Hilfe des K-Means-Algorithmusses kann es zu wesentlichen Fehlern kommen. Das erste Problem ergibt sich, wenn der Algorithmus nicht konvergiert, nicht zusammenläuft. Das zweite Problem entsteht, wenn ein Cluster leer bleibt und nicht mehr gefüllt werden kann.
Diese Probleme können behoben werden, indem der K-Means-Algorithmus neu gestartet wird. Durch die neue Auswahl von Anfangszentren können die beiden Fehler eventuell ausgeschaltet werden.[30]
Neben dem K-Means-Algorithmus gehören beispielsweise FKM-Algorithmus, Isodata-Algorithmus und Spectral-Clustering zu den partitionierenden Clusterverfahren.
3.2.1.2.2 Hierarchische Clusterverfahren
Das hierarchische Clusterverfahren lässt sich in agglomerative / anhäufende und diversive / teilende Methoden unterteilen.
Agglomerative Methoden
Bei der agglomerativen Methode werden im ersten Schritt alle Objekte zu Gruppen. In jedem weiteren Schritt werden zwei Gruppen zu einer zusammengefasst. Dieser Vorgang wird so häufig wiederholt, bis die gewünschte Anzahl von Gruppen gebildet ist. Merkmale der Gruppen können entweder die Verschiedenheit der einzelnen Objekte sein, als auch der Abstand zueinander bei numerischen Merkmalen.[31]
Diversive Methoden
Die diversive Methode arbeitet entgegengesetzt zu der agglomerativen Methode. Hier wird von einer Gruppe ausgegangen, die alle Objekte beinhaltet. Diese Gruppe wird so oft zerlegt, bis jede Gruppe aus einen Objekt besteht.
Die agglomerative Methode wird in der Praxis häufiger eingesetzt, als die diversive.
Die bei der hierarchischen Clusterung entstehende Baumstruktur kann mit Hilfe eines Dendrogramms dargestellt werden.
Das nachfolgende Dendrogramm stellt das agglomerative und das diversive Clusterungsverfahren grafisch dar.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 6: Dendrogramm
Um die Daten jedoch in so einem Dendrogramm veranschaulichen zu können, benötigt man Distanzfunktionen, mit deren Hilfe die Abstände zwischen den einzelnen Elementen und Clustern berechnet werden können.
In der Literatur wird häufig auf die Euklidische Distanzfunktion angesprochen:
Abbildung in dieser Leseprobe nicht enthalten
3.2.2 Prescriptive Methoden
Neben den beschreibenden Methoden gibt es die vorhersagenden Methoden. „Die vorhersagende Modellierung ähnelt der menschlichen Lebenserfahrung bei der gedanklichen Bildung eines Modells aus Beobachtungen. Diese Methode geht also von Hypothesen aus, die von einem eingeschränkten Modell der Wirklichkeit abgeleitet wurden und konzentriert sich darauf, diese Hypothesen an einer Stichprobe zu prüfen. Vorhersagende Modellierung kann zur Analyse einer bestehenden Datenbank eingesetzt werden, um wesentliche Charakteristika (ein Modell) der Daten festzustellen.
Das Modell wird dazu mit Hilfe des Ansatzes für „überwachtes Lernen“ von der Wirklichkeit abgebildet und entwickelt, der aus zwei Phasen besteht: Schulung und Testen. Die Schulung erstellt mit Hilfe einer großen Menge historischer Daten, die häufig auch als „Schulungsmaterial“ bezeichnet werden, ein Modell, während das eigentliche Testen das Erproben des erstellten Modells an neuen, bisher unbekannten Daten umfasst. Dies dient der Überprüfung auf konsistente Korrektheit und der Ermittlung der physischen Leistungsmerkmale des Modells.“[32]
Die vorhersagenden Methoden stellen ein überwachtes Lernen dar, da Sie aufgrund von Schulungen und Tests entstehen. Die beschreibenden Methoden hingegen sind eher unüberwachte Verfahren.
Die Kontrolle der Ergebnisse sind somit bei den vorhersagenden Methoden einfacher, da sie mit Hilfe von neuen Trainingsbeispielen einfach überprüft werden können, wohingegen die Ergebnisse der beschreibenden Methoden durch aufwendige Analysen der unterschiedlichen Parameter und Algorithmen untersucht werden müssen.
3.2.2.1 Klassifizierung
Die Klassifizierung stellt eine Methode der prescriptiven Methoden dar.
Entscheidungsbäume und die Diskriminanzanalyse sind zwei Spezialisierungen der Klassifikation auf die ich im Weiteren näher eingehen möchte. Sie werden genutzt, um die zu analysierenden Daten in vordefinierte Klassen zu unterteilen.
3.2.2.1.1 Entscheidungsbäume
Eine Klassifizierung kann mit Hilfe von Entscheidungsbäumen erfolgen. Hierbei werden meist Entscheidungen hierarchisch aufeinander folgend grafisch abgebildet. Entscheidungsbäume beginnen mit einem Stamm, an dem sich Verzweigungen befinden. Jede Verzweigung stellt einen Entscheidungsprozess dar. Häufig sind diese Entscheidungen Fragen, die mit ja oder nein beantwortet werden können. Hier muss der Nutzer Entscheidungen treffen. Diese Prozedur muss so lange fortgesetzt werden, bis der Nutzer an einem Blatt des Entscheidungsbaumes angelangt ist.
In der Abbildung 7 ist zur besseren Erläuterung ein binärer Entscheidungsbaum dargestellt, mit dessen Hilfe eine Bank eine Kreditvergabe prüfen könnte.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 7: Entscheidungsbaum Kreditvergabe[33]
Mit Hilfe von Entscheidungsbäumen können Entscheidungen wesentlich besser und mit weniger Fehlern getroffen werden. Die Blätter des Baumes sind die Entscheidungen der Situation, die durch den Pfad repräsentiert werden.
Der große Vorteil von Entscheidungsbäumen liegt darin, dass Sie leicht erklärbar und nachvollziehbar sind.
Probleme können Sie jedoch verursachen, wenn Sie aufgrund großer Datenmengen und vieler Entscheidungskriterien unübersichtlich werden.
Um solche Probleme zu beheben, bedient man sich verschiedener Algorithmen, wie zum Beispiel ID3, CART oder Chaid.[34] Diese verhindern, dass Entscheidungsbäume zu stark anwachsen und somit ihre leichte Verständlichkeit verlieren.
So lässt beispielsweise der CART-Algorithmus nur binäre Entscheidungsbäume entstehen. Binäre Entscheidungsbäume sind dadurch gekennzeichnet, dass an jeder Verzweigung immer nur zwei Äste existieren.
Ein weiteres Problem der Entscheidungsbäume entsteht jedoch, „wenn nach Attributwerten aufgesplittet werden muß, für die keine Schulungsbeispiele vorliegen.“[35] Hier muss der Entscheidungsbaum erneut aufgestellt werden.
3.2.2.1.2 Diskriminanzanalyse
Die Diskriminanzanalyse wurde von Ronald Aylmer Fisher 1936 zum ersten Mal beschrieben. Es handelt sich um eine Methode der multivariaten Verfahren in der Statistik. Bei den multivariaten Verfahren wird nicht eine Variable isoliert betrachtet, sondern das Zusammenwirken der Abhängigkeitsstruktur mehrerer Variablen.[36]
Im Data Mining wird die Diskriminanzanalyse dazu genutzt, neue Datensätze zu bereits bestehenden Gruppen zuzuordnen.[37]
Um neue Datensätze den vorhandenen Gruppen zuordnen zu können, müssen die Merkmale, die zur Abgrenzung der einzelnen Gruppen nötig sind, indiziert werden. Diese Trennungskriterien werden verknüpft und in Diskriminanzfunktionen zusammengefasst.
Häufig verwendete Diskriminanzfunktionen sind die Maximum-Likelihood-Methode und die Bayes-Methode.
Maximum-Likelihood-Methode
Bei der Maximum-Likelihood-Methode werden die Objekte den Gruppen zugeordnet, deren Wahrscheinlichkeitsdichte oder Merkmalsdichte die größte ist.
Die Anwendungsmöglichkeit der Maximum-Likelihood-Methode soll an folgendem Beispiel veranschaulicht werden:
Eine Kartoffelernte soll in die beiden Gruppen: große Kartoffeln und kleine Kartoffeln aufgeteilt werden. Die großen Kartoffeln besitzen im Durchschnitt einen Durchmesser von 80 mm, die kleinen Kartoffeln einen von 40 mm.
Nach dem Vermessen der Kartoffeln könnte man nun jede Kartoffel der Gruppe zusortieren, zu dessen Abstand der Durchmesser der geringste ist. So würde eine Kartoffel mit dem Durchmesser 70 mm zu der Gruppe der großen Kartoffeln gehören.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 8: Gruppeneinteilung Kartoffelernte[38]
Eine Diskriminanzfunktion mit zwei Gruppen und gleichen Kovarianzmatrizen nach der Maximum-Likelihood-Methode lässt sich mit folgender Formel[39] berechnen:
Abbildung in dieser Leseprobe nicht enthalten
Der Nachteil der Maximum-Likelihood-Methode besteht jedoch darin, dass die einzelnen Gruppen gleich groß sind, was in der Realität eher selten vorkommen wird.
Bayes-Methode
Um diesem Nachteil Abhilfe zu verschaffen, nutzt man die Bayes-Methode.
So wird hier die Funktion der Maximum-Likelihood-Methode zu Grunde gelegt und durch so genannte A-Priori-Wahrscheinlichkeiten ergänzt.[40] A-Priori stammt aus dem lateinischen und bedeutet: vom Früheren her. Das heißt, die Maximum-Likelihood-Funktion wird noch mit verschiedenen Anteilen gewichtet, die sich aus Beobachtungen von Vergangenheitswerten ergeben.
Daraus ergibt sich im Zwei-Gruppenmodell folgende Funktion:
Abbildung in dieser Leseprobe nicht enthalten
3.2.2.2 Neuronale Netzwerke
Durch Versuche, das Gehirn von Lebewesen nachzuempfinden, sind die heute bekannten neuronalen Netzwerke entstanden. Diese haben jedoch fast nichts mehr mit der Ausgangsidee, das Gehirn von Lebewesen nachzuempfinden, gemein.[41] Sie werden in der Literatur daher auch künstliche neuronale Netzwerke (KNN) genannt.
Neuronale Netze sind Baukastensysteme, die sich aus Neuronen zusammensetzen und so alle logischen Zusammenhänge und Regeln darstellen können. Neuronen sind hierbei Informationsverarbeitungseinheiten.
„Grundprinzip neuronaler Netzwerke ist das Lernen aus Fehlern und die Verallgemeinerung des Gelernten auf neue Stichproben.“[42]
Neuronale Netze bestehen aus Eingabeneuronen, die Werte aufnehmen, über die etwas ausgesagt werden soll. Diese Eingabeneuronen leiten die Werte an verborgene Neuronen weiter, welche die Werte auf die entsprechenden Ausgabeneuronen verteilen. Dabei wird versucht, durch die unterschiedliche Gewichtung der Werte, diese so zu verteilen, dass der Unterschied zwischen beobachteten Werten und den Werten, die mit Hilfe des neuronalen Netzes berechnetet wurden, möglichst minimal wird.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 9: Entstehung eines neuronalen Netzes[43]
Neuronale Netzwerke dienen somit, neben den beschriebenen Entscheidungsbäumen und der Diskriminanzanalyse, zur Analyse und Filterung von Unternehmensdaten, so dass aus großen Datenmengen nützliche Informationen gewonnen werden können.
Im Gegensatz zu den anderen Varianten des überwachten Lernens, ist ein neuronales Netzwerk sehr robust gegenüber fehlerhaften oder unvollständigen Datensätzen. Dies kommt der oftmals mangelnden Qualität realer Datenbanken zu Gute.
Ein weiterer Vorteil für neuronale Netzwerke im Data Mining besteht darin, dass diese sich sehr schnell und unkompliziert durch die Einspeisung neuer Fallbeispiele auf geänderte Ausgangsbedingungen anpassen lassen.[44]
Den Vorteilen der KNN stehen jedoch auch große Nachteile gegenüber. So werden beispielsweise die Ergebnisse in der Realität oft nicht so stark akzeptiert, da einem neuronalen Netzwerk die Transparenz in Form von Regeln fehlt. Ein weiteres Problem ist die Komplexität eines neuronalen Netzwerks, welche zu Fehlern, bei der Erstellung führen können und somit Fehler bei der Ausführung verursachen.
3.3 Probleme Data Mining
Die Ergebnisse der Analyse von Daten mit Hilfe der Data Mining Methoden stellen für die Firmen, die sie nutzen ein, großes Informationspotenzial dar.
Dieses Informationspotenzial stellt jedoch auch eine große Gefahr dar, da dies zum Teil sehr empfindliche Daten sein können und Datenschutz im Internet nur sehr schwer nachvollziehbar ist oder überhaupt nicht gegeben ist.
So hat beispielsweise Amazon.com Int'l Sales, Inc. 1998 den so genannten Purchase Circle eingeführt. Mit diesem Verfahren wurden alle Käufe nach Postleitzahlen und Herkunftsdomain sortiert. Befürchtungen von Datenschützern gingen dahin, man könne aus den Kaufgewohnheiten von Firmen auf die zukünftige Entwicklung dieser Firma schließen.[45] Amazon.com Int'l Sales, Inc. wurde teilweise sogar der Industriespionage verdächtigt.[46]
4 Praktischer Einsatz von Data Mining
Den praktischen Einsatz zweier Data Mining Methoden möchte ich nachfolgend in zwei fiktiven Beispielen darstellen.
Das erste Beispiel soll eine Analyse mittels der descriptiven Methode
- Assoziierung - darstellen.
In dem zweiten Beispiel werde ich Daten mit Hilfe der prescriptiven Methode – Entscheidungsbaum – auswerten.
4.1 Beispiel 1 – Assoziierung
Mars GmbH
Die Mars GmbH betreibt 40 Fachgeschäfte in Deutschland und Österreich in denen Multimedia- und Elektroprodukte angeboten werden. Größte Konkurrenten der Mars GmbH sind andere Fachgeschäfte, wie die Saturn Electro Handelsgesellschaft mbH oder die media markt GmbH.
Um das Sortiment, beziehungsweise die Anordnung des Sortiments, und die Marketingaktionen besser an die Bedürfnisse und das Kaufverhalten der Kunden und anzupassen, sollen die Verkäufe mit der Assoziierungsanalyse analysiert werden.
Wie fast alle großen Verbrauchermärkte nutzt die Mars GmbH das so genannte Scannerkassensystem. Mit Hilfe dieses Systems werden alle Käufe der Kunden genau erfasst und können somit in dem Data Warehouse der Mars GmbH abgelegt werden.
Die nachfolgende Tabelle zeigt einen Ausschnitt der gespeicherten Daten der Scannerkassen:
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10: Beispiel 1, Daten aus Scannerkassensystem
Für die Auswertung der Verkäufe der Mars GmbH werden die Verkäufe der letzten sechs Monate zugrunde gelegt. Das Datenmaterial aus den Scannerkassen umfasst so ca. 98.000 Bonnummern.
Das Aufbereiten und Analysieren der Daten wird von der Controlling Abteilung übernommen. Da das Sortiment der Mars GmbH mehrere tausend Artikel umfasst, werden die Artikel in Produktgruppen aufgeteilt, um so geeignetere Regeln zu finden. Eine Produktgruppe ist beispielsweise „Musik“, die alle Tonträger (CD, LP, DVD und Kassette) mit Musik und Hörspielen umfasst. Die Aussagekraft der Ergebnisse kann so deutlich erhöht werden.
Um die Ergebnisse der Regelsuche mit Hilfe von Algorithmen einzuschränken, werden folgende Parameter zugrunde gelegt:
Support: 20 %
Confidence: 70 %
Lift: 6,3
Die Gesamtheit der Daten wird mit Hilfe des A-Priori Algorithmus analysiert.
Als Ergebnis erhält die Controlling Abteilung verschiedenste Regeln, wie die einzelnen Produkte durch die Käufe der Kunden in Zusammenhang stehen.
Eine gefundene Regel ist beispielsweise, dass Kunden, die einen DVD-Spieler oder einen DVD-Rekorder kaufen in 78 % der Fälle auch einen oder mehrere Spielfilme auf dem Datenträger DVD erwerben.
Die Controlling Abteilung schlägt aufgrund dieser Regel der Geschäftsleitung vor, die DVD-Spieler und DVD-Rekorder in den Fachgeschäften räumlich möglichst weit von den Spielfilmen zu trennen, damit der Kunde gezwungen ist, an möglichst vielen anderen Waren vorbeizugehen.
4.2 Beispiel 2 – Entscheidungsbaum
Die Mars GmbH hat vor 6 Monaten einen Shop im Internet eröffnet, um den Kunden somit die Möglichkeit geben zu können, 24 Stunden am Tag an jeden Tag in der Woche einkaufen zu könne. Die Resonanz der Kunden auf den Online-Shop war sehr gut. Die Mars GmbH kann seit Eröffnung jeden Monat ein wachsendes Umsatzergebnis verzeichnen.
Die Marketingabteilung möchte trotz der guten Auftragslage die Marketingaktionen für den Online-Shop stärker an den Bedürfnissen der Kunden ausrichten.
Um dies zu ermöglichen, wird beschlossen, mit Hilfe von Entscheidungsbäumen die Zugangswege der Kunden zu dem Internetauftritt der Fa. Mars GmbH genauer zu erforschen, um so gezielter an den Kunden herantreten zu können und die wichtigeren Zugangswege stärker in die Marketingaktionen mit einzubinden.
Um jeden Schritt leicht nachvollziehen zu können, werden mehrere Entscheidungsbäume angelegt.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 11: Beispiel 2, Entscheidungsbaum 1
Betreiber einer Homepage haben die Möglichkeit, nachzuvollziehen, woher ein Besuch gekommen ist. Dieses System macht sich die Mars GmbH zunutze. Jeder Besucher der Homepage wird erfasst. Die gesammelten Daten können dann durch den Entscheidungsbaum aufgesplittet werden.
So ergeben sich folgende Gruppen:
1. Besucher, die die Seite direkt aufgerufen haben
2. Besucher, die von einer Suchmaschine verlinkt wurden
3. Besucher, die durch eine Bannerwerbung weitergeleitet wurden
4. Besucher, die von Seiten verlinkt wurden, die Produkttests durchführen
5. Besucher, bei denen nicht ermittelt werden konnte, woher sie gekommen sind.
Da die Mars GmbH über die erste und die fünfte Gruppe keine Informationen hat, wie diese auf die Homepage gelangt sind und woher sie davon erfahren haben, bietet es sich hier an, den Kunden einen kurzen Fragebogen ausfüllen zu lassen, um die nötigen Informationen zu erhalten. Kunden könnte dafür beispielsweise durch ein Gewinnspiel gelockt werden.
Die fünf Gruppen werden nun durch den nächsten Entscheidungsbaum gefiltert.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 12: Beispiel 2, Entscheidungsbaum 2
Die Mars GmbH geht davon aus, dass Besucher, die weniger als eine Minute die Homepage besucht haben, nicht von Interesse sind, da diese sehr wahrscheinlich irrtümlich auf der Seite gelandet sind.
Die restlichen Daten werden durch einen letzten Entscheidungsbaum gefiltert.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 13: Beispiel 2, Entscheidungsbaum 3
Der letzte Entscheidungsbaum dient dazu, die Besucher in 2 Gruppen aufzuteilen, Interessenten und Kunden.
Die Analyse mit Hilfe der Entscheidungsbäume liefert der Marketing Abteilung nach Auswertung das Ergebnis, dass potenzielle Kunden am häufigsten über die Suchmaschinen und über Seiten die Produkttests durchführen auf die Homepage der Mars GmbH gelangen. Interessenten hingegen gelangen meist direkt auf die Internetseite, da sie die Adresse schon im Voraus wussten.
Nur 2 % der Besucher gelangen unfreiwillig auf die Homepage der Mars GmbH.
Als Konsequenzen wird beschlossen, dass bisherigen Kampagnen guten Anklang finden und der Aufbau nicht geändert werden muss, da lediglich 2 % der Besucher sich „verirrt“ haben. Die Mars GmbH wird sich stärker mit den Einträgen bei den Suchmaschinen beschäftigen. Da Bannerwerbung ist weder für die Interessenten noch für die Kunden besonders hilfreich gewesen. Die Marketing Abteilung beschließt jedoch die Bannerwerbung dennoch beizubehalten, da aus anderen Umfragen hervorgegangen ist, dass die Bannerwerbung den Bekanntheitsgrad der Mars GmbH vergrößert.
5 Fazit
In unserer heutigen Zeit gibt es viele Firmen, die Ihre Unternehmensstrategie nach dem Customer Relationship Management ausrichten wollen. Gerade für große Unternehmen, die riesige Datenmengen an Kundeninformationen verwalten müssen, bieten sich die Methoden des Data Mining an, da es sehr schwer wird, die Informationen aus tausenden Daten zu überblicken.
Diese Arbeit hat deutlich gemacht, dass es verschiedenste Methoden gibt, um Daten auszuwerten. In der Praxis wird man sicherlich einige Methoden kombinieren oder die gleichen Daten mit unterschiedlichen Methoden durchsuchen, um noch gezielter Zusammenhänge finden zu können.
Literaturverzeichnis
Monographien und Herausgeberwerke
Ahrens, V. & Hofmann-Kamensky, M. (Hrsg.); Integration von Managementsystemen; Ansätze für die Praxis; München: Vahlen Verlag 2001.
Bauer, A. & Günzel, H. (Hrsg.); Data Warehouse Systeme; Architektur, Entwicklung, Anwendung; Heidelberg: dpunkt.verlag 2001.
Behme, W. & Mucksch, H. (Hrsg.); Data Warehouse-gestützte Anwendungen; Theorie und Praxiserfahrungen in verschiedenen Branchen; Wiesbaden: Gabler Verlag 2001.
Bruhn, M.: Kundenorientierung; Bausteine für ein exzellentes Customer Relationship Management (CRM); 2. Auflage; München: Deutscher Taschenbuch Verlag 2003.
Chamoni, P. & Gluchowski, P. (Hrsg.); Analytische Informationssysteme; Data Warehouse, On-Line Analytical Processing, Data Mining; Berlin, Heidelberg: Springer Verlag 1998.
Duffner, A. & Henn, H.: CRM verstehen, nutzen, anwenden!; Ein Leitfaden für kundenorientierte Unternehmen; Würzburg: Max Schimmel Verlag 2001.
Fritz, W. (Hrsg.); Internet-Marketing; Marktorientiertes E-Business in Deutschland und den USA; Stuttgart: Schäffer-Poeschel Verlag 2001
Gabriel, R.; Wissensbasierte Systeme in der betrieblichen Praxis; Hamburg, New York: McGraw-Hill Book Company 1990.
Helmke, S., Uebel, M. F.; Dangelmaier, W. (Hrsg.); Effektives Customer Relationship Management; Instrumente – Einführungskonzepte – Organisation; 3. Auflage; Wiesbaden: Gabler Verlag 2003.
Hippner, H.; Meyer, M. & Wilde, K. D. (Hrsg.); Computer Based Marketing; Das Handbuch zur Marketinginformatik; 2. Auflage; Wiesbaden: Vieweg Verlag 1999.
Lusti, M.; Data Warehousing und Data Mining; Eine Einführung in entscheidungsunterstützende Systeme; Berlin, Heidelberg: Springer Verlag 1999.
Manninger, M., Göschka, K. M. & Schwaiger, C.; Electronic Commerce - Die Technik; Technologie, Design und Implementierung; Heidelberg: Hüthig 2001
Multhaupt, M.; Data Mining und Text Mining im strategischen Controlling; Braunschweig: Shaker Verlag 2000.
Stadelmann, M., Wolter, S., Tomczak, T. & Reinecke, S. (Hrsg.): Customer Relationship Management; 12 CRM-Best Practise-Fallstudien zu Prozessen, Organisation, Mitarbeiterführung und Technologie; Zürich: Orell Füssli Verlag 2003.
Striegl, T.; Effizientes Direktmarketing; Wie Sie per E-Mail Ihre Kunden begeistern und auf Dauer an Ihr Unternehmen binden; Bonn: Galileo Press 2003.
Von Dobschütz, L., Jäger-Goy, H., Kütz, M. & Möller, H.-P. (Hrsg.); IV-Controlling; Konzepte – Umsetzung – Erfahrung; Wiesbaden: Gabler Verlag 2000.
Wiedmann, K.-P., Buckler, F. (Hrsg.); Neuronale Netze im Marketing-Management; Praxisorientierte Einführung in modernes Data Mining; Wiesbaden: Gabler Verlag 2001.
Wolf, E. E.; Konzeption eines CRM-Anreizsystems; Konzeption eines Anreizsystems zur Unterstützung einer erfolgreichen Implementierung von Customer Relationship Management; In: Zerres, M. (Hrsg.); Hamburger Schriften zur Marketingforschung; München, Mering: Rainer Hampp Verlag 2002.
Internetquellen
BearingPoint GmbH; Customer Relationship Management - Kollaboratives CRM; in: http://www.bearingpoint.de/content/industries/index_1725.htm; Zweibrücken 2005; Abruf am 02.06.2005.
Dachtler, A. & Senske, J.; Data Mining; in: http://www.heindl.de/kl2004/ datamining/ausarbeitung_KI.pdf; Tübingen 2005; Abruf am 28.05.2005.
Heise Zeitschriften Verlag; Amazon verspricht nun doch mehr Datenschutz; in: http://www.heise.de/newsticker/meldung/5888; Hannover 1999; Abruf am 03.06.2005.
I.M.C.S. Ingo Molter Computer Service; ISS - Interactive Selling Systeme; in: http://www.imcs-systeme.de/glossar_iss.html; Langenfeld 2003; Abruf am 01.06.2005.
Kraft, T.; Aktuelles Schlagwort: „Data Mining“; in: http://www.hlrs.de/ivs/html/
106_11.htm; Stuttgart 2005; Abruf am 28.05.2005.
Loyaltix; Share of Wallet; in: http://www.loyaltix.at/faq/ one?faq_id=50&show_Entry_id=80; Enns – Österreich o.J.; Abruf am 30.05.2005.
MegaSolution GmbH; Was ist CRM; in: http://www.megasolution.de/crm/ crm%20def%20und20grundlagen.pdf; Mammendorf 2003; Abruf am 30.05.2005.
NIONEX GmbH; Analytisches CRM; in: http://www.nionex.de/home/ loesungen/crm/analytischescrm.jsp; Gütersloh 2004; Abruf am 01.06.2005.
Raskob, C.; k-Means-Algorithmus; in: http://www.raskob.de/fun/d/doc/ centroidalvoronoi/node110.html 2004; Grosslittgen 2004; Abruf am 24.05.2005.
Skyfillers; CRM-Strategien; in: http://www.skyfillers.com/CRM_strategien. 120.0.html; Flensburg 2005; Abruf am 02.06.2005.
Scheffer, T. & Bickel, S.; Maschineles Lernen und Data Mining; in: http://www.informatik.hu-berlin.de/forschung_lehre/wm/mldm2004/ entscheidungsbaeume.pdf; Berlin o.J.; Abruf am 28.05.2005; Server nicht mehr existent.
Stromann, C.; Data.Mining und Data-Analysis; in: http://www.ecommerce.wiwi.uni-frankfurt.de/lehre/01ws/crm/seminararbeiten/ thema9_stromann_datamining.pdf; Frankfurt am Main o.J.; Abruf am 02.06.2005.
VGSPS mbH; Diskriminanzanalyse; in: http://www.vgsps.business. t-online.de/handbuch/da.html; Neustadt 2004; Abruf am 02.06.2005.
Wikimedia Foundation Inc.; Clusteranalyse; in: http://de.wikipedia.org/wiki/ clusteranalyse; St. Petersburg FL – USA; Abruf am 24.05.2005.
Wikimedia Foundation Inc.; Clusteranalyse; k-means-Algorithmus; in: http://de.wikipedia.org/wiki/clusteranalyse #k-means-algorithmus; St. Petersburg FL – USA; Abruf am 24.05.2005.
Wikimedia Foundation Inc.; Computer Telephony Integration; in: http://de. wikipedia.org/wiki/cti; St. Petersburg FL – USA; Abruf am 31.05.2005.
Wikimedia Foundation Inc.; Customer Relationship Management; in: http://de.wikipedia.org/wiki/crm; St. Petersburg FL – USA; Abruf am 02.06.2005.
Wikimedia Foundation Inc.; Diskriminanzanalyse; in: http://de.wikipedia. org/wiki/diskriminanzanalyse; St. Petersburg FL – USA; Abruf am 02.06.2005.
[...]
[1] Vgl. http://www.skyfillers.com/crm_strategien.120.0.html; (02.06.2005).
[2] http://www.loyaltix.at/faq/one?faq_id=50&show_entry_id=80; (30.05.2005).
[3] Quelle http://www.megasolution.de/crm/crm%20def%20und%20grundlagen.pdf; (30.05.2005).
[4] Vgl. Stadelmann, M. 2003, S. 46 ff.
[5] Vgl. Helmke, S u.a. 2003, S. 30
[6] Vgl. Helmke, S u.a. 2003, S. 30
[7] Vgl. http://de.wikipedia.org/wiki/cti; (31.05.2005).
[8] Vgl. http://www.bearingpoint.de/content/industries/index_1725.htm; (02.06.2005).
[9] Vgl. http://de.wikipedia.org/wiki/crm; (02.06.2005).
[10] Vgl. Helmke, S u.a. 2003, S. 20
[11] Vgl. Helmke, S u.a. 2003, S. 26
[12] Vgl. http://www.imcs-systeme.de/glossar_iss.html; (01.06.2005).
[13] Vgl. http://www.nionex.de/home/loesungen/crm/analytischescrm.jsp; (01.06.2005).
[14] Vgl. Bauer, A.; Güntel, H. 2001, S. 7
[15] Helmke, S u.a. 2003, S. 15
[16] Vgl. Multhaupt, M. 2000, S. 45
[17] Vgl. Chamoni, P.; Gluchowski, P. 1998, S. 291
[18] Vgl. Multhaupt, M. 2000, S. 46
[19] Vgl. Lusti, M. 1999, S. 250
[20] Lusti, M. 1999, S. 250
[21] Vgl. Bauer, A.; Günzel, H. 2001, S. 107
[22] http://www.hlrs.de/ivs/html/106_11.htm; (28.05.2005).
[23] Chamoni, P.; Gluchowski, P. 1998, S. 54
[24] Vgl. Multhaupt, M. 2000, S. 63
[25] Vgl. Chamoni, P.; Gluchowski, P. 1998, S 54
[26] Lusti, M. 1999, S. 252
[27] Vgl. http://de.wikipedia.org/wiki/clusteranalyse; (24.05.2005).
[28] http://www.raskob.de/fun/d/doc/centroidalvoronoi/node110.html; (24.05.2005).
[29] Chamoni, P.; Gluchowski, P. 1998, Seite 308
[30] Vgl. http://de.wikipedia.org/wiki/clusteranalyse#k-means-algorithmus; (24.05.2005).
[31] Vgl. Chamoni, P.; Gluchowski, P. 1998, S. 307
[32] Vgl. http://www.heindl.de/KI2004/datamining/ausarbeitung_KI.pdf; (28.05.05).
[33] Quelle http://www.informatik.hu-berlin.de/forschung_lehre/wm/mldm2004/ entscheidungsbaeume.pdf; (28.05.2005).
[34] Vgl. Chamoni, P.; Gluchowski, P. 1998, S. 312
[35] Chamoni, P.; Gluchowski, P. 1998, S. 313
[36] Vgl. http://de.wikipedia.org/wiki/diskriminanzanalyse; (02.06.2005).
[37] Vgl. http://www.vgsps.business.t-online.de/handbuch/da.html; (02.06.2005).
[38] Quelle http://de.wikipedia.org/wiki/diskriminanzanalyse; (29.05.2005).
[39] Vgl. http://de.wikipedia.org/wiki/diskriminanzanalyse; (29.05.2005).
[40] Vgl. http://de.wikipedia.org/wiki/diskriminanzanalyse; (20.05.2005).
[41] Vgl. Wiedmann, K.-P.; Buckler, F. 2001, S. 44
[42] Lusti, M. 1999, S. 306
[43] Quelle Lusti, M. 1999, S. 310
[44] Vgl. Multhaupt, M. 2000, S. 80
[45] Vgl. http://www.ecommerce.wiwi.uni-frankfurt.de/lehre/01ws/crm/seminararbeiten/ thema9_stromann_datamining.pdf; (02.06.2005).
[46] Vgl. http://www.heise.de/newsticker/meldung/5888; (02.06.2005).
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.