Data Mining als Komponente innovativer Systeme


Diplomarbeit, 2003
91 Seiten, Note: 1,3

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Zielsetzung der Arbeit
1.2 Aufbau der Arbeit

2 Grundlagen des Data Mining
2.1 Data Mining
2.1.1 Einordnung des Begriffs Data Mining
2.1.2 Definition Data Mining
2.1.3 Data Mining als Prozess des Maschinellen Lernen
2.1.4 Beziehungsgefüge Data Mining und On-Line Analytical Processing
2.2 Text Mining
2.3 Web Mining
2.3.1 Informationen für das E-Business
2.3.2 Einsatzgebiete des Web Mining

3 Datenbasis
3.1 Informationsquellen
3.2 Datentypen
3.3 Data Warehouse
3.4 Betriebswirtschaftlicher Regelkreis

4 Funktionen und Ziele des Data Mining
4.1 Der Data Mining-Prozess
4.1.1 Vorverarbeitungsphase
4.1.2 Miningphase
4.1.3 Auswertungsphase
4.1.4 Text-/Web Mining-Prozess
4.2 Analysen und Aufgaben des Data Mining
4.2.1 Klassifizierung
4.2.2 Prognose
4.2.3 Assoziation
4.2.4 Segmentierung
4.2.5 Repräsentation
4.3 Methoden des Data Mining
4.3.1 Statistische Methoden
4.3.2 Entscheidungsbaumverfahren
4.3.3 Clusteranalyse
4.3.4 Künstliche Neuronale Netze (KNN)
4.3.5 Assoziationsmethoden

5 Einsatzgebiete von Data Mining
5.1 Data Mining im Customer Relationship Management
5.2 E-Commerce als Einsatzgebiet des Web Mining
5.3 Data Mining im Handel (Warenkorbanalyse)

6 Zusammenfassung und Fazit

Literatur- und Quellenverzeichnis

Internet-Adressen

Eidesstattliche Erklärung

Abbildungsverzeichnis

Abbildung 1 - Ansätze der Wissensentdeckung

Abbildung 2 - Navigation in einem dreidimensionalen Datenwürfel

Abbildung 3 - Richtungen des Web Mining

Abbildung 4 - Komponenten eines Data Warehouse

Abbildung 5 - Betriebswirtschaftlicher Regelkreis

Abbildung 6 - Schritte im DM-Prozess

Abbildung 7 - Von der Problemstellung zur Wahl der Data Mining-Methode

Abbildung 8 - Beispiel für einen Entscheidungsbaum

Abbildung 9 - Cluster-Konstruktionsprinzip beim hierarchischen Verfahren (Dendrogramm)

Abbildung 10 - Struktur eines Künstlichen Neuronalen Netzes

Abbildung 11 - Schematische Darstellung einer Assoziationsregel

Abbildung 12 - Data Mining im Beziehungslebenszyklus

Abbildung 13 - Werbung für Windeln und Bier (Assoziationsanalyse)

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Die zunehmende Globalisierung und Liberalisierung der Märkte, der Wandel von Anbieter- zu Nachfragemärkten und die abnehmende Kundenloyalität verschärfen den Wettbewerb und führen dazu, dass Unternehmen ihre Aktivitäten immer stärker am Kunden ausrichten, um wettbewerbsfähig zu bleiben.[1] Durch die sich ständig weiterentwickelnde Technologie entstehen immer neue Informationssysteme, die die Unternehmen in allen wichtigen Geschäftsprozessen unterstützen und zum Erhalt der Wettbewerbsfähigkeit und Positionierung am Markt beitragen. Im täglichen Einsatz dieser Systeme fallen eine große Menge unterschiedlichster Daten über Kunden, ihr Kaufverhalten, Reaktionen auf Werbeaktionen, etc. an, die sich ein Unternehmen durch eine entsprechende Auswertung und anschließende Integration der Analyseergebnisse in die Geschäftsprozesse zunutze machen kann. Um die enormen Datenmengen strukturiert analysieren, sinnvoll interpretieren und auf den Unternehmenserfolg abgestimmt auswerten zu können, werden computergestützte Werkzeuge und Methoden zur Datenuntersuchung benötigt.[2] Ein Bereich, welcher zu diesem Zweck immer häufiger zum Einsatz kommt, ist das Gebiet des Data Mining (DM). Das Data Mining beinhaltet Verfahren und Algorithmen zur Wissensaufdeckung in Datenbanken und wird deshalb auch als „Knowledge Discovery in Databases (KDD)“ bezeichnet. Mit Hilfe von DM können für ein Unternehmen wichtige Fragestellungen wie „Werden Chips und Bier in der zweiten Jahreshälfte genauso häufig gekauft wie in der ersten?“ oder „Wie entwickelt sich der Aktienkurs der Firma Meier, wenn der Kurs der Konkurrenzfirma Müller sinkt?“ etc. beantwortet werden. Dadurch können zum einen Geschäftsprozesse optimiert, zum anderen Unternehmensstrategien wie Werbekampagnen, Umsatzsteigerung oder Gewinnmaximierung bestmöglich geplant werden. Somit unterstützt DM ein Unternehmen in seinem Bestreben, konkurrenz- und wettbewerbsfähig zu bleiben und seine Aktivitäten auf die personalisierte und individuelle Kundenansprache ausrichten zu können.

1.1 Zielsetzung der Arbeit

Ziel der vorliegenden Arbeit ist es, dem Leser den Prozess des Data Mining transparent zu machen, die Einsatzgebiete innerhalb innovativer Systeme vorzustellen sowie einen kurzen Ausblick auf zukünftige Anwendungsfelder zu geben.

1.2 Aufbau der Arbeit

Der Aufbau dieser Arbeit gliedert sich in 6 Kapitel, die sich zum Teil mit den theoretischen und zum Teil mit den praktischen Aspekten des Data Mining befassen.

In Kapitel 2 erfolgt zunächst eine allgemeine Einführung in das Data Mining. Hierzu werden die Grundlagen vorgestellt. Des Weiteren wird ein kurzer Überblick über die Ausprägungen des Data Mining gegeben. Dazu zählen das Text Mining und das Web Mining.

In Kapitel 3 geht es um die Datenbasis, die bei Analysevorgängen benutzt wird. Es werden Möglichkeiten der Beschaffung von Daten aus unterschied­lichen Informationsquellen beschrieben sowie unterschiedliche Datentypen erläutert. Zuletzt wird der betriebswirtschaftliche Regelkreis dargestellt, der die Umsetzung von Daten in Wissen beschreibt.

Kapitel 4 befasst sich mit der Erläuterung des Data Mining-Prozesses. Zunächst werden die einzelnen Phasen des Vorgangs vorgestellt. Im Anschluss werden die Analysen und Aufgaben des DM beschrieben und die dazu benötigten Data Mining-Methoden näher erläutert.

Der Einsatz von Data Mining innerhalb von innovativen Systemen wird in Kapitel 5 beschrieben. Dazu wird eine Erläuterung des Begriffs der „innovativen Systeme“ vorgenommen und anschließend Beispiele für diese Anwendungsfelder beschrieben. Anhand des Customer Relationship Management, des e-Commerce und der Verwendung von Data Mining im Handel wird der praktische Nutzen dargestellt.

In Kapitel 6 wird die Arbeit kurz zusammengefasst. Es wird eine mögliche Weiterentwicklung für den Bereich des Web Mining vorgestellt und zuletzt ein Fazit gezogen.

2 Grundlagen des Data Mining

In diesem Kapitel werden der Begriff und die zugrunde liegende Problematik des Data Mining dargestellt. Ziel ist es, eine Einführung in das Gebiet der Wissensentdeckung und einen Überblick über einzelne Bestandteile des DM zu geben. Zusätzlich werden zwei neuere Bereiche des DM, das Text- und das Web Mining, vorgestellt.

2.1 Data Mining

2.1.1 Einordnung des Begriffs Data Mining

Im Begriff DM steckt das aus dem Bergbau stammende Wort „Mining“. Hierbei werden enorme Gesteinsmengen mit großem technologischem Aufwand maschinell abgebaut und aufbereitet, um Edelmetalle ans Tageslicht zu fördern.[3] Ähnlich werden beim DM riesige Datenbestände mit speziellen Methoden/Tools (für weiterführende Erklärungen siehe Kapitel 4.3) durchforstet, um an neue Informationen oder Wissen zu gelangen.[4] Die Ergebnisse, die durch das „Schürfen“ und „Graben“ der DM-Tools erzielt werden, werden in Anlehnung an frühere Goldgräberzeiten auch als „Knowledge Nuggets“ bzw. „Wissensbarren“ bezeichnet.[5] Die Tools entstammen Verfahren der Datenanalyse aus den Forschungsgebieten der Künstlichen Intelligenz, der Statistik, des Maschinellen Lernens und der Mustererkennung. Die Methoden aus diesen Gebieten haben die Aufgabe, aus riesigen Datenvolumina autonom aussagekräftige und nicht triviale Hypothesen zu generieren, ohne zuvor eine konkrete Fragestellung erhalten zu haben. Es wurde jedoch schnell klar, dass DM alleine noch kein Garant für ein solches Ergebnis ist. E. Thomsen schrieb in einem seiner Bücher: „… you need to know a lot about your data to mine successfully …“.[6] DM gilt daher als Intelligenzverstärker für die Mitarbeiter, die mit diesen Tools arbeiten. Daher wird in der Literatur von einem Wissensentdeckungsprozess gesprochen (siehe hierzu Kapitel 4.1). Dieser Prozess des „Knowledge Discovery in Databases“ (KDD = Wissensentdeckung in Datenbanken) beinhaltet neben den DM-Methoden zunächst einmal die Aufgabendefinition und die Datenaufbereitung und nach der eigentlichen Anwendung der Analysetools die Ergebnisevaluation.[7] DM ist somit im eigentlichen Sinne nur eine Maßnahme innerhalb des KDD-Prozesses, die bestimmte DM-Algorithmen/-Methoden beinhaltet, welche besondere Muster entdecken können. Die meisten Autoren – sowie auch der Verfasser dieser Arbeit – verwenden DM oder den DM-Prozess synonym zu KDD oder dem KDD-Prozess. Bei den Beschreibungen des Prozesses oder der Werkzeuge wird dabei vielfach auf die Literatur zu KDD zurückgegriffen.[8]

2.1.2 Definition Data Mining

Wie bereits beschrieben bezeichnet DM Techniken zum Finden interessanter und nützlicher Muster und Regeln (Informationen und Wissen) in großen Datenbeständen. Eine allgemein verwendete, exakte Definition des Begriffs DM existiert nicht. In der Literatur finden sich oft recht unterschiedliche Begriffserklärungen.

Erick Brethenoux (Gartner Group) definiert DM als „… den Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster und Trends durch die Analyse großer Datensätze mittels Mustererkennung sowie statischer und mathematischer Verfahren“.[9]

Hagedorn et al. beschreiben DM durch zwei Eigenschaften:

1. „Gegenstand der Datenmustererkennung sind große, strukturierte Bestände numerischer, ordinal- oder nominalskalierter Daten, in denen interessante, aber schwer aufzuspürende Zusammenhänge vermutet werden.
2. Das Forschungsziel der Datenmustererkennung sind allgemein verwendbare, effiziente Methoden, die autonom aus großen Datenmengen die bedeutsamsten und aussagekräftigsten Muster identifizieren und sie dem Anwender als interessantes Wissen präsentieren.“[10]

Dem Verfasser dieser Arbeit erscheint folgende Definition von Fayyad et al. als geeignete Arbeitsgrundlage: „Data Mining ist die nicht-triviale Entdeckung gültiger, neuer, potenziell nützlicher und verständlicher Muster in Datenbeständen.“[11]

Die Entdeckung von Mustern beschreibt dabei eine Verallgemeinerung der Objekte, die sie darstellen. Die Muster spiegeln die Charakteristik der Objekte wider und sollen dadurch einfacher aufgebaut sein als die reine Aufzählung aller Objekte. Darüber hinaus sollen diese Muster nicht nur für die Daten gelten, in denen sie gefunden wurden, sondern auch für neue Daten anwendbar sein. Ferner sollen die Muster „neu“, d.h. bislang unbekannt, sein und auch einen gewissen Nutzen bringen.[12]

2.1.3 Data Mining als Prozess des Maschinellen Lernen

Ein Anwendungsgebiet des maschinellen Lernens ist die Analyse von vorher gesammelten Datenbeständen mit Hilfe von Lernverfahren. Der Begriff „Maschinelles Lernen“ beschreibt eine schrittweise Reduktion der Fehleranfälligkeit in einem Prozess. Genauer definiert bedeutet das, dass jede nachfolgende Aufgabe genauer bearbeitet wird als die ihr vorausgegangene. Man unterscheidet hierbei zwischen induktivem und deduktivem Lernen. Letzteres wird auch als „Top-Down-Ansatz“ oder „Verification Model“ bezeichnet, wohingegen die Begriffe „Bottom-Up-Ansatz“ oder „Discovery Model“ das induktive Lernen beschreiben.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 - Ansätze der Wissensentdeckung
Quelle: Eigene Darstellung in Anlehnung an Mena 2000, S. 122.

Die deduktive Variante setzt auf Expertensystemen auf. Es werden Hypothesen und Fragen von einem Anwendungsexperten formuliert und mit Hilfe verschiedener Tools anhand von Datenbeständen bestätigt oder verworfen. Wie in Abbildung 1 dargestellt nutzt man die Experten, um an Wissen zu gelangen. Nachteilig bei diesen Modellen ist, dass sie fehleranfällig, zu empfindlich und für die wechselnden Anforderungen des Tagesgeschäfts zu unflexibel sind.[13]

Die Alternative dazu ist die induktive Analyse. Induktion bedeutet, vom Besonderen auf das Allgemeine zu schließen. In diesem Fall bedeutet es, dass man aus einer Datenbasis (dem Besonderen) Information extrahiert, die man anschließend in ein Modell (das Allgemeine) überführt, in dem man z.B. Ähnlichkeiten zwischen den Objekten entdeckt und diese in Klassen gruppiert. Neue Objekte werden dann anhand dieses Modells bzw. dieser Hypothesen klassifiziert und zugeordnet.[14]

Mit Hilfe des Data Mining will man noch einen Schritt weitergehen und möchte sogar die Hypothesen von selbst generieren lassen. Somit wird eine Vorgehensweise angestrebt, die nach unsichtbaren Strukturen und unbekannten Zusammenhängen sucht. Dabei unterscheidet man, ob man ein bestimmtes Ereignis erklären oder generelle Strukturen entdecken will. Auf diese Weise wurde in den Achtziger Jahren die Basis der DM-Tools gelegt. Der Mathematiker J. Ross Quinlan entwickelte den Interactive Dichotomiser (ID3)-Algorithmus. Dieser Algorithmus dient als Grundlage für die Regelbildung in Entscheidungsbäumen. Die Mustererlernung bei Neuronalen Netzen prägte John Hopfield durch die Entwicklung eines rückgekoppelten Neuronalen Netzes. John Holland und seine Mitarbeiter bildeten die Grundlage für genetische Algorithmen. Diese und weitere DM-Tools werden in Kapitel 4.3 näher erläutert.[15]

2.1.4 Beziehungsgefüge Data Mining und On-Line Analytical Processing

Zur Aufdeckung von erfolgsrelevanten Geschäftserfahrungen müssen die zur Verfügung stehenden Daten mittels Analysetools durchforstet werden. Als eine der ersten Softwarelösungen wurde zu diesem Zweck das Konzept des On-Line Analytical Processing (OLAP) entwickelt.[16] OLAP ist eine Softwaretechnologie, die nach Durchforstung der Daten, den Entscheidungsträgern relevante Information bereitstellt.[17] Im Gegensatz zum datengesteuerten DM ist OLAP ein nutzergesteuertes Analyse-Tool. Das bedeutet, dass OLAP auf eine konkrete Anfrage eines Users hin eine Datenbasis mit Hilfe bereits definierter Dimensionen und Zusammenhänge auf Antworten durchsucht.[18]

OLAP liefert dem Anwender die relevanten Daten, die er für seine tägliche Arbeit benötigt. Hinter dem Begriff OLAP verbirgt sich – wie auch bei DM – ein Prozess, der die Daten zunächst analysiert, danach auswertet und schließlich visualisiert. Um die Daten auswerten zu können, werden die meist relational vorliegenden Informationen in eine multidimensionale Form transformiert. Es entstehen so genannte „Cubes“ (englisch für Würfel).[19] Ein zu untersuchender Aspekt wird jeweils durch eine Kante dieser Cubes dargestellt (z.B. Umsätze entlang einer Zeit-, einer Produkt- und einer Gebiets­achse). Die Generierung dieser OLAP-Struktur lehnt sich dabei stark an eine betriebswirtschaftliche Art des Denkens an und bietet dem Benutzer dadurch einen einfachen Zugriff auf die meist komplexe Datenwelt.

Mittels Navigationstools kann sich der User innerhalb eines solchen Cubes bewegen und bestimmte Bereiche isoliert betrachten. Als „Slicing“ bezeichnet man das Schneiden eines Cubes in Scheiben, Ebenen oder Teilwürfel (siehe Abbildung 2 – Sichten 1 bis 4). Das „Dicing“ hingegen beschreibt das „Würfeln“ (Drehen, Kippen oder Wenden) des Cubes.[20] Mittels „Drill-Up“- und „Drill-Down“-Befehlen kann man den Detaillierungsgrad der Dateien variieren. Durch Drill-Up lässt sich z.B. eine höhere Aggregations­stufe anzeigen.[21]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2 - Navigation in einem dreidimensionalen Datenwürfel
Quelle: Eigene Darstellung in Anlehnung an Bager et. al. 1997, S. 284.

OLAP ist ein wichtiges Tool, um meist vergangenheitsbezogene Fragestellungen wie z.B. „Welche Kunden haben letzten Monat gekündigt?“ oder „Welche Kunden waren zahlungsunfähig?“ zu beantworten. Es geht dabei darum, einen konkreten Sachverhalt zu analysieren. Im Gegensatz dazu steht der DM-Ansatz, welcher mehr auf die Zukunft ausgerichtet ist. Er versucht, Faktoren zu bestimmten Aufgabenstellungen zu finden. So entdeckt DM in den gleichen Daten Muster, um Anfragen wie „Welche Kunden werden wahrscheinlich in den nächsten 6 Monaten zu einem Konkurrenten überlaufen?“ oder „Ist dieser Kunde bonitär?“ zu beantworten.[22] DM bedient sich dazu der OLAP-Tools, um Daten zu selektieren und aufzubereiten sowie zur Ergebnisablage. OLAP gehört somit zu den speziellen Werkzeugen in ausgewählten Phasen des DM-Prozesses.[23]

2.2 Text Mining

Eine Variante des DM ist der Bereich des Text Mining. Während DM hauptsächlich auf formatierte und numerische Daten angewandt wird, extrahiert Text Mining Muster in umformatierten Daten wie E-Mails, Dokumenten, Zeitungs-/Zeitschriftenartikeln, Patenten oder jeglicher anderer elektronischer Textablage.[24] Diese unstrukturierten „Textdaten“ machen über achtzig Prozent der Kundeninformationen in einem Unternehmen aus, die jedoch ohne solche Tools wie Text Mining nur schwer auswertbar sind. Die Tatsache, dass „verwertbares Wissen“ über die Kunden in diesen Daten schlummert, macht den Einsatz von Text Mining zu einem rentablen System.[25]

Text Mining lässt sich in verschiedene, sich teilweise überschneidende Bereiche einteilen, die nun kurz vorgestellt werden:

- Aufgabe des „Information Retrieval“ ist es, aus einer gegebenen Dokumentensammlung diejenigen Dokumente zu extrahieren, die am besten zu der am Anfang gestellten Benutzeranfrage passen.[26]
- Beim „Information Filtering“ wird wie beim Information Retrieval vorgegangen. Der Unterschied besteht darin, dass beim Filtering eine dynamische Dokumentensammlung als Grundlage vorhanden ist (z.B. Online-Ausgaben einer Wochenzeitung)
- Bei der „Information Extraction“ geht es um das Auffinden von speziellen Informationen in einzelnen Texten. Diese zuvor festgelegten, zu suchenden Informationen werden dann aus dem Text extrahiert und dem Benutzer präsentiert. Dabei werden alle nicht geforderten Inhalte ignoriert.
- Die „Textzusammenfassung“ wird in „Abstracts“ und „Exstracts“ unterteilt. Abstracts sind Zusammenfassungen mit selbsterstellten Formulierungen, wohingegen bei Exstracts wichtige Ausschnitte des ursprünglichen Textes präsentiert werden. Dem Benutzer wird mit diesem Tool eine kurze Übersicht über den Inhalt eines Textes bereitgestellt.
- Bei der „Textkategorisierung“ werden Methoden des DM angewandt. Der Text wird dabei anhand von inhaltlich zueinander passenden Kategorien aufgeteilt. Dabei ist die Anzahl der Kategorien zuvor noch nicht bekannt.[27]
- Im Gegensatz zur Kategorisierung anhand der Clustermethode werden bei der „Textklassifikation“ die Texte anhand von vorgegebenen Klassen eingeteilt.

Die beim Text Mining eingesetzte Technologie wird als „natürlichsprachliche Analyse von Texten“ (englisch „Natural Language Processing“, NLP) bezeichnet. Diese Software versteht den Satzbau (Subjekt, Prädikat, Objekt) und kann Wortarten analysieren. Dadurch können z.B. Eigennamen von Institutionen und homonymen Wörtern unterschieden werden.[28]

Text Mining ist ein wichtiger Bereich, um unstrukturierte Daten zusätzlich zu DM für die strukturierten Daten zu nutzen. Eine weitere Variante – die Ana­lyse von Onlinedaten – wird im nächsten Kapitel dargestellt.

2.3 Web Mining

Die zweite Ausprägung des DM – das Web Mining – beschäftigt sich mit den Datenstrukturen des Internets. Web Mining bezeichnet die Anwendung moderner DM-Verfahren, um Muster aus den Daten des World Wide Web (WWW) sowie die durch das WWW generierten Daten zu extrahieren.[29]

2.3.1 Informationen für das E-Business

Der in den letzten Jahren immer wichtiger werdende Bereich des E-Business verlangt die Verlagerung der Geschäftsbereiche auf das Internet. Um kon­kurrenzfähig zu bleiben, ist es elementar, den Service und die Kundenorientierung online und offline zu pflegen. Der Trend geht zur langfristigen Pflege einer Kundenbeziehung und nicht zu kurzfristigen Akquisitionen von Neukunden.[30] Aus dieser Entwicklung resultieren Informationen wie Log-Files, Benutzerinformationen oder anderen Kundendaten (die Datenarten werden in Kapitel 3 näher erläutert). Die Analyse und Auswertung dieser Daten mittels entsprechender Tools kann zu Informationen und Wissen über den Kunden führen. Diese Kundeninformationen können dann für eine spezielle und personalisierte Kundenansprache genutzt werden.[31] Die Fragestellungen, die sich anhand von Web Mining beantworten lassen, geben z.B. Aufschluss über die Zusammensetzung der Site-Besucher, die Bewertung der Seiteninhalte oder das Kaufverhalten der Besucher. Zur Auswertung werden zum Teil die DM-Tools, aber auch speziell für das Web Mining entwickelte Software

genutzt. Wiederum andere Tools greifen auf die Ergebnisse der Web Mining-Analyse zurück, um den Internetnutzern eine personalisierte Seite zu generieren oder die aufgedeckten Schwachstellen der Webseite zu beheben.[32] Ruft zum Beispiel ein Bankkunde täglich bestimmte Aktienkurse über die Homepage der Bank ab, so kann man ihm beim nächsten Aufruf der Seite bzw. seines Accounts automatisch die Kurse anzeigen lassen.

2.3.2 Einsatzgebiete des Web Mining

Der Begriff Web Mining wird in der Literatur weiter aufgegliedert. Web Mining beschreibt die reine Anwendung von DM-Verfahren auf die Datenstrukturen des Internet. Wie in Abbildung 3 dargestellt wird zwischen Web Structure Mining, Web Content Mining und Web Usage Mining unterschieden.

Die Aufgabe des Web Structure Mining ist es, die Beziehungen innerhalb einer Webseite zu analysieren (intra-page structure information) sowie die Verbindung zwischen verschiedenen Seiten herauszufinden (inter-page structure information). Primär werden dabei Hyper-Links untersucht, die Verweise auf meist inhaltlich verwandte Seiten bieten. Die Ergebnisse dienen der Kategorisierung der Websites und geben über die Ähnlichkeit verschiedener Seiten Aufschluss.[33]

Web Content Mining ist der Oberbegriff für die Analyse von Seiteninhalten. Zu einer erstellten Suchanfrage entdeckt dieser Bereich des Web Mining Informationen zu Inhalten, Daten und Dokumenten, die auf Seiten des Internets abgespeichert sind. Die weitere Aufgabe besteht darin, die gefundenen Dokumente zu gruppieren oder zu klassifizieren. Dazu werden insbesondere die Verfahren des Text Mining eingesetzt.[34]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 - Richtungen des Web Mining
Quelle: Eigene Darstellung in Anlehnung an Hippner et al. 2002b, S. 7 und Bensberg/Weiß 1999, S. 427

Diese beiden Methoden werden hauptsächlich zur Datenvorverarbeitung genutzt. Beide lassen sich auf die reinen Daten und deren Verknüpfungen anwenden. Durch das Web Content Mining erhält man Informationen über das, was auf den Seiten angeboten wird. Web Structure Mining vermittelt einen Überblick über die Struktur und Verknüpfungen der einzelnen Seiten untereinander. Dadurch lässt sich im Nachhinein das Bewegungsmuster einem User zuordnen.[35] Im Gegensatz dazu untersucht das Web Usage Mining die Daten, die während der Benutzung einer Website aufgezeichnet werden. Der Website-Anbieter hofft Informationen darüber zu erhalten, ob die Webpage seitens der Besucher akzeptiert wird oder ob sie zu unattraktiv bzw. zu kompliziert ist, so dass der User die Seite schon nach kurzer Zeit verlässt. Durch die Analyse von Webserver-Nutzungsprotokollen (Log-Files) sollen Informationen für eine optimale Gestaltung des Webauftritts gewonnen werden. Aus den Log-Files erhält man unter anderem Informationen über den Nutzer: Zu welchem Zeitpunkt wurden welche Seiten in welcher Abfolge aufgerufen usw. Bei dieser Art von Untersuchung spricht man vom Web Log Mining (siehe Abbildung 3). Werden dabei zum Beispiel Kontaktformulare oder ähnliches vom Benutzer der Seite ausgefüllt, erhält das Unternehmen detailliertere Informationen zum Kunden. In Verbindung mit der Web Log Mining-Methode wird der komplette Besuchspfad eines nunmehr definierbaren Kunden erfassbar. Werden weitere Datenquellen zum Web Log Mining hinzugezogen, spricht man vom Integrated Web Usage Mining.[36]

3 Datenbasis

Für den Einsatz von Data Mining ist eine relevante Datenbasis erforderlich. Im besten Fall werden alle notwendigen Informationen in einer zentralen Datenbank abgespeichert.[37] Welche Informationen dabei eine Rolle spielen, ist vom Geschäftsbereich und der Branche abhängig. Jedes Gebiet benötigt und generiert unterschiedliche Daten. Im Folgenden werden die Quellen der Informationen, die unterschiedlichen Datentypen, ein Beispiel einer einheitlichen Datenbank und der Weg von den Daten zum Wissen näher erklärt.

3.1 Informationsquellen

Nach dem Ort der Datenentstehung lassen sich unternehmensinterne und unternehmensexterne Informationsquellen unterscheiden. Als interne Quellen dienen die klassischen operativen Informationssysteme des Marketings und Vertriebs wie z.B. das Customer Relationship Management (CRM), das Enterprise Ressource Planing (ERP) oder ähnliche Systeme. Neben diesen Kundenkontaktstellen bieten der Kundendienst, die Logistik und das betriebsinterne Rechnungswesen Informationen über den Einsatz von Konkurrenzprodukten, das Retourenverhalten der Kunden oder die Zahlungsgewohnheiten.[38] Des Weiteren dienen Call-Center-Mitarbeiter als eine wertvolle Informationsquelle, da sie immer persönlich mit dem Kunden in Kontakt stehen und Besonderheiten sofort abspeichern können. Beschwerdemanagement und Kundenzufriedenheitsuntersuchungen können ebenfalls als interne Quelle angesehen werden, da Informationen über das Reklamationsverhalten, getroffene Maßnahmen zur Problemlösung oder Bearbeitungszeiten gewonnen werden. Neben der Datengewinnung dienen die externen Informationen als Ergänzung zu den unternehmensinternen Informationsquellen. Hierzu zählen Datenquellen, die außerhalb des Unternehmens zu finden sind wie z.B. Telefon- und Adressbücher, Messe- und Ausstellerverzeichnisse, Wohngebäudedatenbanken oder Lifestyledaten, die im Besonderen Konsumprofile und Konsuminteressen beinhalten.[39] Diese Datenbeispiele werden auch als Individualdaten bezeichnet, da sie sich direkt in die Unternehmensdatenbank integrieren lassen. Im Gegensatz dazu stehen Aggregatdaten, die nicht unmittelbar den Unternehmenskundendaten zugeordnet werden können. Sie beziehen sich meist auf Marktsegmente oder Regionen und somit nicht direkt auf die Ausprägung eines Kunden. Hierzu werden mikrogeographische Segmentierungen und Marktforschungsdaten gezählt. Erstere beschreiben charakteristische Besonderheiten wie Lebensstil oder Sozialverhalten eines Wohnviertels oder von kleinen regionalen Marktsegmenten. Die Marktforschungsdaten lassen sich ebenfalls nicht direkt zuordnen, da sie generell anonym erhoben werden.[40]

Speziell für den Bereich des Web Mining werden „Internetnutzungsdaten“ benötigt. Die gängigsten Daten sind dabei die vom Webserver generierten Log-Files und Cookies. In den Log-Files werden Rechnertätigkeiten und die Kommunikation des Servers mit dem Internet festgehalten. Dies entspricht der Navigation des Site-Besuchers. Somit lässt sich der Weg eines Users, den er während seines Besuchs durchgangen ist, nachvollziehen.[41] Zur Identifikation und Wiedererkennung eines Besuchers werden so genannte Cookies eingesetzt. Dadurch lassen sich die wiederholten Besuche eines Kunden eindeutig zuordnen.[42]

Interne und externe Informationsquellen beinhalten Vor- und Nachteile. Externe Informationen lassen sich schnell und kostengünstig beschaffen und bieten einen Einblick in das vom Unternehmen verfolgte Ziel. Der Vorteil der

internen Quellen hingegen ist, dass die gespeicherten Daten den gesuchten Informationen entsprechen und keine Unmengen an zusätzlichem Datenmüll enthalten. Außerdem stehen unternehmensinterne Informationen nur dem Unternehmen selbst und somit nicht der Konkurrenz zur Verfügung.[43]

3.2 Datentypen

Die in operativen Datenbanken oder einer zentralen Datenbank abgespeicherten Daten aus den verschiedenen Informationsquellen lassen sich in vier unterschiedliche Datentypen unterteilen: Grund-, Aktions-, Reaktions- und Potentialdaten. Diese Einteilung unterstützt den Anwender von Data Mining-Tools bei der Auswahl und Analyse der Daten.

Die Grunddaten umfassen die gesamten Kundenstammdaten. Hierzu zählen Informationen wie die Anschrift, Telefon, Geburtsdatum, Titel usw. Grunddaten bestehen aus Daten, die innerhalb der Geschäftsbeziehung einmal aufgenommen und nur wenig verändert werden. Der Umfang und die Detaillierungsstufe der Daten hängt von der Geschäftsbeziehung mit dem jeweiligen Kunden ab.[44]

Unter Aktionsdaten werden alle Daten der bisherigen Geschäftsbeziehung zwischen Unternehmen und Kunde zusammengefasst. Dazu gehören neben den Daten des ersten Interesses sowie des ersten Kontakts auch kundenbezogene Maßnahmen wie beispielsweise das Datum und die Art der letzten Werbeaktion. Weiterhin wird die gesamte Kaufhistorie zu den Aktionsdaten gezählt.[45]

[...]


[1] Vgl. Wilhelm et al. (im-marketing-forum.de) 2001, S. 3.

[2] Vgl. Wilde 2001, S. 33.

[3] Vgl. Adriaans/Zantinge 1997, S. 5.

[4] Vgl. Berry/Linoff 1997, S. 5.

[5] Vgl. Alpar/Niedereichholz 2000b, S. 3.

[6] „… man muss viel über seine Daten wissen, um erfolgreich fördern/graben zu können.“ Thomsen 1997, S. 478.

[7] Vgl. Wilde 2001, S. 45.

[8] Vgl. Wrobel 1998, S. 6.

[9] Brethenoux (spss.com) 2001, S. 8.

[10] Hagedorn et al. 1997, S. 601.

[11] Vgl. Fayyad et al. 1996, S. 6.

[12] Vgl. Bissantz 1996, S. 6.

[13] Vgl. Berendt (community-of-knowledge.de) 2002, S. 3.

[14] Vgl. Berendt (community-of-knowledge.de) 2002, S. 3.

[15] Vgl. Mena 2000, S. 121.

[16] Vgl. Wilde 2001, S. 42.

[17] Vgl. Alpar/Niedereichholz 2000b, S. 16.

[18] Vgl. Zipser 2001, S. 42.

[19] Vgl. Böttiger et al. 2001, S. 51.

[20] Vgl. Hippner/Wilde 2002a, S. 17.

[21] Vgl. Gehrke 2000, S. 91.

[22] Vgl. Berendt (community-of-knowledge.de) 2002, S. 6-7.

[23] Vgl. Küsters 2001, S. 150.

[24] Vgl. Küsters 2001, S. 148.

[25] Vgl. Horny 2003, S. 12-13.

[26] Vgl. Baeza-Yates et al. 1999, S. 5.

[27] Vgl. Steinbach et al. 2000, S. 5.

[28] Vgl. Horny 2003, S. 13.

[29] Vgl. Cooley et al. 1997, S. 5.

[30] Vgl. Wilde 2002, S. 3.

[31] Vgl. Hippner et al. 2002a, Vorwort.

[32] Vgl. Hippner et al. 2002b, S. 6.

[33] Vgl. Kosala/Blockeel 2000, S. 5.

[34] Vgl. Bensberg/Weiß 1999, S. 426-428.

[35] Vgl. Hippner et al. 2002b, S. 7.

[36] Vgl. Bensberg/Weiß 1999, S. 426-427.

[37] Vgl. Chapman et al. 1999, S. 8.

[38] Vgl. Hippner/Wilde 2001, S. 60.

[39] Vgl. Huldi, Kuhfuß 2001, S. 91.

[40] Vgl. Hippner/Wilde 2001, S. 64.

[41] Vgl. Hubert 1999, S. 110.

[42] Vgl. Kimball/Merz 2000, S. 54-55.

[43] Vgl. Weis/Olfert 1999, S. 116.

[44] Vgl. Holland/Heeg 1998, S. 24-25.

[45] Vgl. Gerth 2001, S. 113.

Ende der Leseprobe aus 91 Seiten

Details

Titel
Data Mining als Komponente innovativer Systeme
Hochschule
Verwaltungs- und Wirtschaftsakademie Essen
Note
1,3
Autor
Jahr
2003
Seiten
91
Katalognummer
V85571
ISBN (eBook)
9783638900430
ISBN (Buch)
9783638905831
Dateigröße
1410 KB
Sprache
Deutsch
Schlagworte
Data, Mining, Komponente, Systeme, CRM, Customer Relationship Management, Business Warehouse, BW
Arbeit zitieren
Stefan Kempka (Autor), 2003, Data Mining als Komponente innovativer Systeme, München, GRIN Verlag, https://www.grin.com/document/85571

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Data Mining als Komponente innovativer Systeme


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden