Informationen zum Autor 2
Informationen zum Autor
Markus Leibold hat von Oktober 2000 bis Februar 2004 Informationswirtschaft an der Hochschule der Medien in Stuttgart studiert. Schon vor Beginn und während seines Studiums war er als IT-Spezialist bei zahlreichen Firmen tätig, vor allem in den Bereichen Datenbankdesign, Netzwerkadministration und Anwenderbetreuung. Als Diplom-Informationswirt (FH) ist er nun als Consultant tätig, vornehmlich in den Feldern Data-Warehouse, Business Intelligence und Informationsmanagement. Die vorliegende Arbeit ist seine Abschlussarbeit. Die Arbeit wurde mit der Note 2,0 bewertet.
Die Website des Autors::http://www.mleibold.de
Kurzfassung 3
Kurzfassung
Gegenstand dieser Diplomarbeit ist Web Log Mining und dessen Einsatz als Controllinginstrument bei Public Relations. Der Ablauf des Web Log Mining wird beschrieben, dabei wird auf Logfile-Kennzahlen und ihre Ermittlung eingegangen. Weiter werden wichtige Data Mining-Methoden erläutert und Aspekte des Datenschutzes werden diskutiert. In Bezug auf Public Relations wird auf spezielle Merkmale der Online-PR und auf Zielgruppen der Online-PR eingegangen. Weiterhin wird ein Modell für PR-Controlling vorgestellt, in dem das Web Log Mining eingeordnet wird. Die Möglichkeiten der Erfolgsmessung von Online-PR werden ebenso betrachtet, wie der Vergleich von Kosten und Nutzen von Web Log Mining. Ein Beispiel für eine Data Mining-Anwendung zur Zielgruppenidentifikation erläutert den praktischen Nutzen von Web Log Mining.
Schlagwörter: Data Mining, Web Log Mining, Public Relations, Logfile, Controlling.
Abstract
Topic of this thesis is web log mining and its application as a controlling instrument in the public relation sector. The description of the procedure of Web Log Mining concentrates specifically on logfile key data and its identification. Important Data Mining methods are being described, followed by a discussion of specific aspects of privacy. Special characteristics referring to online public relations and their target groups are examined and discussed. Furthermore, the position of Web Log Mining will be shown in the context of a public relations-controlling model. Possibilities to measure success of online public relations will be closely looked at, followed by a cost-benefit examination of Web Log Mining. An example for a Data Mining application to identify target groups explains a practical usage of Web Log Mining.
Keywords: Data Mining, Web Log Mining, Public Relations, Logfile, Controlling.
Kurzfassung 4
Inhaltsverzeichnis
Informationen zum Autor 2
Kurzfassung 3
Abstract 3
Abbildungsverzeichnis. 6
Tabellenverzeichnis 6
Abk ürzungsverzeichnis. 7
1 Einleitung. 8
1.1 Begriffsklärungen 9
1.2 Aufbau der Arbeit 10
2 Web Log Mining 11
2.1 Web Mining 11
2.2 Logfiles. 13
2.3 Der Web Log Mining Prozess 14
2.3.1 Ablauf des Web Log Mining 14
2.3.2 Negative Einflussfaktoren bei der Datenerhebung 16
2.3.3 Website-Architektur. 17
2.4 Logfile-Kennzahlen 19
2.4.1 Einfache Auswertungen 20
2.4.2 Fortgeschrittene Auswertungen 22
2.5 Data Mining. 25
2.5.1 Assoziations- und Pfadanalyse. 25
2.5.2 Clusteranalyse 26
2.5.3 Künstliche Neuronale Netze 28
2.5.4 Entscheidungsbäume 29
2.5.5 Zuordnung von Aufgaben im Web Log Mining. 30
2.6 Datenschutz 31
2.6.1 Rechtliche Grundlagen 31
2.6.2 Ethische Aspekte der Logfile-Auswertung 33
3 Web Log Mining im Rahmen der Online-PR. 35
3.1 Online-PR 35
3.1.1 Spezielle Merkmale der Online-PR. 35
3.1.2 Zielgruppen der Online-PR 37
3.1.3 Inhalte der Online-PR 38
Kurzfassung 5
3.2 Online-PR-Controlling 40
3.2.1 PR-Controlling. 40
3.2.2 Kennzahlen 42
3.2.3 Erfolgsmessung von Online-PR. 43
3.3 PR-spezifisches Web Log Mining 44
3.3.1 Vergleich von Kosten und Nutzen. 44
3.3.2 Zielgruppenidentifikation 45
4 Praktische Möglichkeiten der Umsetzung und Vorteile für die PR 47
4.1 Exemplarische Untersuchungen 48
4.2 Grenzen von Web Log Mining bei Online-PR 50
4.3 PR-Nutzen 51
5 Fazit. 53
Anhang A: Grafische Darstellungen 55
Anhang B: HTTP Status Codes. 57
Literaturverzeichnis 58
Monographien und Zeitschriftenartikel 58
Internetquellen 61
Abbildungsverzeichnis
Abbildungsverzeichnis
Abbildung 1: Aufbau des KDD-Prozesses
Abbildung 2: Einordnung des Web Log Mining
Abbildung 3: Ablauf der Web Log Mining Analyse
Abbildung 4: Zusammenhang zwischen Hit, Pageview, Session und User
Abbildung 5: Agglomerative hierarchische Clusterbildung.
Abbildung 6: Exemplarische Entscheidungsbaumstruktur
Abbildung 7: Zuordnung von Fragestellungen und Aufgaben im Web Mining zu
Data Mining-Methoden
Abbildung 8: PR-Controlling.
Abbildung 9: Zugriffszahlen auf Wochentage kumuliert.
Abbildung 10: Anzahl Zugriffe auf Tageszeiten kumuliert.
Abbildung 11: Geografische Herkunft der Website-Zugriffe auf der Weltkarte
dargestellt.
Abbildung 12: Häufigste Status Code-Meldungen im Auswertungszeitraum.
Abbildung 13: Anzahl Downloads nach Tagen geordnet
Tabellenverzeichnis
Tabelle 1: Common Logfile Format und Extended Common Logfile Format
Tabelle 2: Verfälschende Logfile-Einflüsse und mögliche Gegenmaßnahmen.
Tabelle 3: Informationsgehalt einer einfachen Logfileanalyse
Tabelle 4: Zusammenfassung: Informationsgehalt fortgeschrittener Logfileanalysen
Tabelle 5: HTTP Status Codes nach HTTP 1 1
Abkürzungsverzeichnis 7
Abkürzungsverzeichnis
BDSG Bundesdatenschutzgesetz
BPN Backpropagation-Netze
CLF Common Logfile Format
DNS Domain Name System
DWH Data Warehouse
ECLF Extended Common Logfile Format
ERP Enterprise Resource Planning
ETL Extrahieren, Transformieren und Laden (Extraction, Transformation and Loading)
GMT Greenwich Mean Time
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
IV W Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e. V.
KDD Knowledge Discovery in Databases
KNN Künstliche Neuronale Netze
LSA Latent Semantic Analysis
OLAP On-Line Analytical Processing
OS Operating System (Betriebssystem)
PR Public Relations (Werbung, Öffentlichkeitsarbeit)
SCG Scaled Conjugate Gradient
SOM Self Organizing Maps
TDDSG Teledienstedatenschutzgesetz
1 Einleitung 8
1 Einleitung
Für Unternehmen und Behörden, die im Wettbewerb mit anderen Einrichtungen stehen, aber auch für solche, die auf eine breite Akzeptanz angewiesen sind, ist es unerlässlich, ein positives Bild in der Bevölkerung und in der Geschäftswelt zu haben und es zu erhalten. Für dieses Ziel ist eine gute Öffentlichkeitsarbeit (PR) nicht mehr wegzudenken. Public Relations sind in Zeiten immer aggressiverer Webemaßnahmen keineswegs weniger wichtig für die Unternehmen, sondern haben sogar noch an Bedeutung gewonnen.
„Die steigende Bedeutung der Public Relations ergibt sich im Übrigen zuvorderst aus der zunehmenden Resistenz der Öffentlichkeit gegenüber der üblichen Massenwerbung. Berichte in der neutralen Presse über das Unternehmen oder seine Produkte, die durch Öffentlichkeitsarbeit erreicht werden, wirken hingegen wesentlich glaubwürdiger.“ 1
Dieses wichtige Instrument der Unternehmenskommunikation wird heute zunehmend durch das Medium Internet ergänzt. Um einen möglichst effektiven Einsatz von Online-Public Relations zu gewährleisten, liegt es nahe zu überprüfen, welche Verbreitung die PR über das Internet erzielt hat.
Web Log Mining ist eine Methode, über welche sich Art und Umfang der Zugriffe auf eine Internetpräsenz auswerten lassen. Durch Web Log Mining lassen sich gesammelte Informationen über die Internetseitenbesucher und deren Verhalten auf der Internetpräsenz untersuchen und somit verborgene Zusammenhänge aufdecken. Daher ist Web Log Mining ein Instrument, Public Relations im Internet auf ihre Effektivität und Effizienz hin zu untersuchen. Bei Abweichungen von Soll-Vorgaben bieten die Ergebnisse eine gute Grundlage, angemessene Korrekturmaßnahmen einleiten zu können. Somit wird ein Regelkreis geschaffen, der, ausgehend von dem Ziel, ein positives Image eines Unternehmens in der Öffentlichkeit zu wahren und das Image zu verbessern, über die Kontrolle eingesetzter Online-PR-Maßnahmen bis hin zu aktiven Prozessoptimierungen den optimalen Einsatz von Online-PR gewährleisten kann.
Die vorliegende Arbeit zeigt die Möglichkeiten auf, welche Web Log Mining für das Controlling von Online-PR-Ressourcen bietet. Es werden sowohl die technischen Vorraussetzungen und Möglichkeiten, als auch der praktische Nutzen herausgearbeitet. Wird in dieser Arbeit im Zusammenhang mit Public Relations der Bezug auf ein Unternehmen hergestellt, das Public Relations betreibt, ist dies exemplarisch und kann auch für Einrichtungen, Institutionen und Organisationen stehen.
1 explido (2003). URL: http://www.promotionwelt.de/marketingmix_online_pr.htm - Zugriff am 15.10.2003.
1 Einleitung 9
Anhand einiger Grafiken wird im Anhang die Auswertung eines Logfiles skizziert, um dem Leser einen Eindruck von Logfile-Auswertungen zu vermitteln.
Wegen der Ausrichtung des Web Log Mining auf Logfiles bleiben die Ausführungen dieser Arbeit bezüglich der Informationsquellen ebenfalls auf Logfiles beschränkt. Andere Quellen für das Auswerten von Website-Nutzung, die beim Integrated Web Log Mining verwendet werden, wie Web-Formulare oder e-Mail, werden in dieser Arbeit nicht näher betrachtet.
1.1 Begriffsklärungen
An dieser Stelle werden einige Fachbegriffe geklärt und voneinander abgegrenzt. Somit soll eine einheitliche Verständnisgrundlage für den Leser geschaffen werden.
Public Relations (PR) ist der englischsprachige Begriff für Öffentlichkeitsarbeit. Nach Kotler et. al. hat Öffentlichkeitsarbeit die Aufgabe, „[…] gute Beziehungen zu den verschiedenen Partnern des Unternehmens in der internen (Mitarbeiter, Geldgeber) und externen Öffentlichkeit zu erhalten und zu pflegen.“ 2 . Ziel der Öffentlichkeitsarbeit ist also, „[…] dass über das Unternehmen gesprochen und geschrieben wird - dass das Unternehmen im positiven Sinn nicht in Vergessenheit gerät. 3 “
Online-PR ist der Begriff für die Öffentlichkeitsarbeit, die über das Medium Internet (zum Beispiel über eine Website oder per e-Mail) umgesetzt wird. 4
Controlling wird in der Literatur nicht einheitlich definiert, kann aber als Überwachung, Planung und Steuerung von Unternehmensprozessen beschrieben werden. Controlling ist gegenwarts- und zukunftsorientiert, anders als bei einer vergangenheitsorientierten Kontrolle. 5
Ein Controllinginstrument ist eine Methode oder Vorgehensweise, die zur Bewältigung von Controllingaufgaben eingesetzt wird.
Das in dieser Arbeit angesprochene „PR-Controlling“ ist ein Begriff, der so in der Fachwelt nur selten auftaucht. PR-Controlling bezeichnet das Anwenden klassischer Controlling-Prinzipien auf den Bereich der PR.
Web Log Mining ist die Analyse des Verhaltens von Internetnutzern, bei der unter anderem Data Mining-Methoden (siehe Kapitel 2.5, S. 25 ff) auf die von Webservern generierten Logfiles angewendet werden, um Interessen und Verhaltensmuster von Onli-
2 Kotler,P. et al. (2003), S. 946
3 Kotler, P. et al. (2003), S. 946
4 vgl. explido (2003). URL: http://www.promotionwelt.de/marketingmix_online_pr.htm -Zugriff am 15.10.2003.
5 vgl. Schwickert, A. C. / Beiser, A. (1999)
URL: http://wi.uni-giessen.de/gi/dl/showfile/Schwickert/1155/Apap_WI_1999_07.pdf -
Zugriff am: 19.11.2003. - S. 4 f
1 Einleitung 10
ne-Kunden zu ergründen. Beim Web Log Mining bleibt die Datenquelle auf Logfiles beschränkt. 6
1.2 Aufbau der Arbeit
Im ersten Kapitel wird ein Überblick über die Grundlagen, die Ausgangssituation und die Ergebnisse vermittelt.
Das zweite Kapitel der Arbeit stellt das Web Log Mining näher vor und thematisiert sowohl technologische und methodische als auch rechtliche Gesichtspunkte des Web Log Mining.
Kapitel drei beschreibt anschließend Web Log Mining im Rahmen der Online-PR, wobei dem PR-Controlling besondere Aufmerksamkeit geschenkt wird.
Das vierte Kapitel hat zum Inhalt, wie Web Log Mining in der Praxis als Controllinginstrument der Online-PR zum Einsatz kommen kann. Unter anderem wird hierbei auf die Auswertungsmöglichkeiten und den Nutzen für die PR eingegangen.
Schließlich wird eine Zusammenfassung der angesprochenen Themen gegeben.
6 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7
2 Web Log Mining 11
2 Web Log Mining
2.1 Web Mining
Web Mining ist ein Anwendungsfeld des Data Mining, wobei die Datenbasis Nutzungsdaten einer Website sind, die vom Webserver als Logfile aufgezeichnet werden. In manchen Fällen wird die Datenbasis mit weiteren Daten angereichert oder ergänzt. Data Mining selbst ist ein Bestandteil von Knowledge Discovery in Databases (KDD), ein Prozess, der in Abbildung 1 dargestellt ist.
Abbildung 1: Aufbau des KDD-Prozesses 7
Ausgehend von Daten, die zum Beispiel in einem Data Warehouse (DWH) abgelegt sein können, werden in der ersten Phase des KDD-Prozesses die relevanten Daten selektiert und nach so genannten Data Marts extrahiert. Data Marts sind kleinere Datenbanken, welche diejenigen Daten eines DWH enthalten, die für eine bestimmte Anwendung benötigt werden. Sie sind leichter handhabbar als die komplexe Datenstruk-
7 vgl.Bensberg, F. (2001), S. 72 [aufbauend auf Fayyad, U. M. et al. (1996), S. 10] und vgl. Fayyad, U. M. / Piatetsky-Shapiro, G. / Smyth P. (1996), -
URL: http://www.aaai.org/Library/Magazine/Vol17/17-03/Papers/
AIMag17-03-002.pdf - Zugriff am 29.11.2003. - S: 41
2 Web Log Mining 12
tur eines DWH. 8 Entscheidungsgrundlage für die Selektion der Daten ist stets ein konkret verfolgtes Ziel, das mit dem Prozess erreicht werden soll, zum Beispiel Kundengruppen zu identifizieren. Daran schließt sich in Phase zwei eine Vorverarbeitung an. In dieser Phase werden mögliche Fehlerquellen beseitigt, welche die beabsichtigte Untersuchung verfälschen könnten. In der dritten Phase werden die Daten transformiert. Das ist wichtig, um die Daten in die gewünschte Struktur zu bringen, die für die beabsichtigte Data Mining-Methode vorliegen muss. Phase vier ist der Abschnitt, in dem mit Data Mining Mustererkennung betrieben wird. Nahezu jede Data Mining-Methode erfordert eine Vorbereitung, die hierbei eingerechnet werden muss. In Phase fünf werden gefundene Muster evaluiert und interpretiert, was zu einem Informationsgewinn führt, der dem Domänenwissen (=relevantes Fachwissen) zugute kommt. Da das Domänenwissen mit jeder Interpretation von Ergebnissen zunimmt, ist der KDD-Prozess rekursiv und wird deshalb auch als „dynamisch“ bezeichnet. 9
Web Log Mining ist ein abgrenzbarer Bereich des Web Mining und zeichnet sich dadurch aus, dass als primäre Datenquelle das Logfile eines Webservers verwendet wird. Bedingt durch die Datenquelle „Logfiles“ wird beim Web Log Mining vor allem untersucht, wie das Angebot eines Webservers genutzt wird. Im Gegensatz zum „Integrated Web Usage Mining“ wird beim „Web Log Mining“ auf zusätzliche Datenquellen, die direkt Informationen über den Besucher beinhalten, verzichtet, allein das Logfile wird untersucht. 10
Eine Übersicht über die Disziplinen des Web Mining und die Einordnung des Web Log Mining gibt folgende Darstellung:
Abbildung 2: Einordnung des Web Log Mining 11
Das Web Mining kennt neben Web Usage Mining noch zwei weitere Disziplinen: Das Web Content Mining hat die Suche nach Informationsinhalten zum Gegenstand und
8 vgl. Brosius, G. (2001), S. 33
9 Bensberg, F. (2001), S. 72
10 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7
11 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7 f
2 Web Log Mining 13
das Web Structure Mining den Aufbau und die Verlinkung von Ressourcen. Bei diesen anderen Web Mining-Disziplinen steht im Vordergrund, ursprünglich unübersichtliche Informationsmengen im Internet zu erfassen und so leichter zugänglich zu machen.
Die Produktvielfalt an Web Mining-Software ist mittlerweile groß. Einige Websites zum Thema KDD und Data Mining haben Übersichten zu Web Mining-Software erstellt, die einen Einstieg in das Softwarespektrum erleichtern. 12 Eine sehr gute Übersicht bietet die Site www.kdnuggets.com . 13
2.2 Logfiles
Die Datenquelle einer Web Log Mining-Untersuchung ist ein Logfile eines Webservers. Jeder Webserver erstellt während des Betriebs Logfiles zu unterschiedlichen Zwecken, die sich im Format 14 unterscheiden. Das von nahezu allen Webservern generierte Log-file-Format ist das so genannte „Common Logfile Format“ (CLF). Häufig wird es durch zusätzliche Informationen erweitert und dann als „Extended Common Logfile Format“ (ECLF) bezeichnet. Tabelle 1 zeigt die Datenfelder, die durch diese Formate erhoben werden.
Tabelle 1: Common Logfile Format und Extended Common Logfile Format 15
12 vgl. Bolz, C. (2001), URL: http://www.bolz.org/Vergleich_Web_Mining_Software.PDF - Zugriff am 06.12.2003. - S. 6
13 vgl. KDnuggets (2003): URL: http://www.kdnuggets.com/software/web.html -Zugriff am 06.12.2003.
14 Dies sind zum Beispiel Zugriffsprotokolle, Fehlerprotokolle oder Anwendungsprotokolle.
15 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 10
16 Siehe auch Anhang B: HTTP Status Codes auf Seite 57
17 „OS“ steht für Operating System (Betriebssystem).
Arbeit zitieren:
Markus Leibold, 2003, Web Log Mining als Controllinginstrument der PR, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Corporate Identity am Beispiel Yello Strom
Medien / Kommunikation - Public Relations, Werbung, Marketing
Hausarbeit, 20 Seiten
Psychologie - Arbeit, Betrieb, Organisation und Wirtschaft
Hausarbeit (Hauptseminar), 17 Seiten
Wie verändert das Internet die Werbung?
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Diplomarbeit, 52 Seiten
Systematische Erfolgsmessung im E-Business
Informatik - Wirtschaftsinformatik
Seminararbeit, 29 Seiten
Verfahren zur Analyse des Nutzerverhaltens im WWW: Clickstreams, Cooki...
Informatik - Wirtschaftsinformatik
Hausarbeit (Hauptseminar), 13 Seiten
eControlling - Ein Kennzahlensystem für B2C Unternehmen in der New Eco...
Diplomarbeit, 91 Seiten
Das Marketinginstrument Internet
Medien / Kommunikation - Public Relations, Werbung, Marketing
Diplomarbeit, 49 Seiten
Markus Leibold hat den Text Web Log Mining als Controllinginstrument der PR veröffentlicht
Markus Leibold hat einen neuen Text hochgeladen
Innovation Mining - Nutzung Web-basierter Informationsquellen im Unter...
Ein Leitfaden für die effektiv...
Jan Finzen, Harriet Kasper, Maximilien Kintz
Mining the Web: Transforming Customer Data Into Customer Value
Gordon S. Linoff, Michael J. A. Berry
WEBKDD 2001 - Mining Web Log Data Across All Customers Touch Points
Third International Workshop, ...
Ron Kohavi, Brij M. Masand, Myra Spiliopoulou, Jaideep Srivastava
Web Mining: From Web to Semantic Web
First European Web Mining Foru...
Bettina Berendt, Andreas Hotho, Gerd Stumme, Myra Spiliopoulou, Dunja Mladenic, Maarten van Someren
Advances in Web Mining and Web Usage Analysis
7th International Workshop on ...
Olfa Nasraoui, Osmar Zaiane, Myra Spiliopoulou, Manshad Mobasher, Brij Masand, Philip Yu
0 Kommentare