Web Log Mining als Controllinginstrument der PR


Diplomarbeit, 2003

62 Seiten, Note: 2,0


Leseprobe


Inhaltsverzeichnis

Informationen zum Autor

Kurzfassung

Abstract

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Begriffsklärungen
1.2 Aufbau der Arbeit

2 Web Log Mining
2.1 Web Mining
2.2 Logfiles
2.3 Der Web Log Mining Prozess
2.3.1 Ablauf des Web Log Mining
2.3.2 Negative Einflussfaktoren bei der Datenerhebung
2.3.3 Website-Architektur
2.4 Logfile-Kennzahlen
2.4.1 Einfache Auswertungen
2.4.2 Fortgeschrittene Auswertungen
2.5 Data Mining
2.5.1 Assoziations- und Pfadanalyse
2.5.2 Clusteranalyse
2.5.3 Künstliche Neuronale Netze
2.5.4 Entscheidungsbäume
2.5.5 Zuordnung von Aufgaben im Web Log Mining
2.6 Datenschutz
2.6.1 Rechtliche Grundlagen
2.6.2 Ethische Aspekte der Logfile-Auswertung

3 Web Log Mining im Rahmen der Online-PR
3.1 Online-PR
3.1.1 Spezielle Merkmale der Online-PR
3.1.2 Zielgruppen der Online-PR
3.1.3 Inhalte der Online-PR.. 38 Kurzfassung
3.2 Online-PR-Controlling
3.2.1 PR-Controlling
3.2.2 Kennzahlen
3.2.3 Erfolgsmessung von Online-PR
3.3 PR-spezifisches Web Log Mining
3.3.1 Vergleich von Kosten und Nutzen
3.3.2 Zielgruppenidentifikation

4 Praktische Möglichkeiten der Umsetzung und Vorteile für die PR
4.1 Exemplarische Untersuchungen
4.2 Grenzen von Web Log Mining bei Online-PR
4.3 PR-Nutzen

5 Fazit

Anhang A: Grafische Darstellungen

Anhang B: HTTP Status Codes

Literaturverzeichnis

Monographien und Zeitschriftenartikel

Internetquellen

Informationen zum Autor

Markus Leibold hat von Oktober 2000 bis Februar 2004 Informationswirtschaft an der Hochschule der Medien in Stuttgart studiert. Schon vor Beginn und während seines Studiums war er als IT-Spezialist bei zahlreichen Firmen tätig, vor allem in den Berei-chen Datenbankdesign, Netzwerkadministration und Anwenderbetreuung. Als Diplom-Informationswirt (FH) ist er nun als Consultant tätig, vornehmlich in den Feldern Data-Warehouse, Business Intelligence und Informationsmanagement. Die vorliegende Arbeit ist seine Abschlussarbeit. Die Arbeit wurde mit der Note 2,0 bewertet.

Die Website des Autors::http://www.mleibold.de

Kurzfassung

Gegenstand dieser Diplomarbeit ist Web Log Mining und dessen Einsatz als Control-linginstrument bei Public Relations. Der Ablauf des Web Log Mining wird beschrieben, dabei wird auf Logfile-Kennzahlen und ihre Ermittlung eingegangen. Weiter werden wichtige Data Mining-Methoden erläutert und Aspekte des Datenschutzes werden dis-kutiert. In Bezug auf Public Relations wird auf spezielle Merkmale der Online-PR und auf Zielgruppen der Online-PR eingegangen. Weiterhin wird ein Modell für PR-Controlling vorgestellt, in dem das Web Log Mining eingeordnet wird. Die Möglichkei-ten der Erfolgsmessung von Online-PR werden ebenso betrachtet, wie der Vergleich von Kosten und Nutzen von Web Log Mining. Ein Beispiel für eine Data Mining-Anwendung zur Zielgruppenidentifikation erläutert den praktischen Nutzen von Web Log Mining.

Schlagwörter: Data Mining, Web Log Mining, Public Relations, Logfile, Controlling.

Abstract

Topic of this thesis is web log mining and its application as a controlling instrument in the public relation sector. The description of the procedure of Web Log Mining concen-trates specifically on logfile key data and its identification. Important Data Mining meth-ods are being described, followed by a discussion of specific aspects of privacy. Spe-cial characteristics referring to online public relations and their target groups are exam-ined and discussed. Furthermore, the position of Web Log Mining will be shown in the context of a public relations-controlling model. Possibilities to measure success of online public relations will be closely looked at, followed by a cost-benefit examination of Web Log Mining. An example for a Data Mining application to identify target groups explains a practical usage of Web Log Mining.

Keywords: Data Mining, Web Log Mining, Public Relations, Logfile, Controlling.

Abbildungsverzeichnis

Abbildung 1: Aufbau des KDD-Prozesses

Abbildung 2: Einordnung des Web Log Mining

Abbildung 3: Ablauf der Web Log Mining Analyse

Abbildung 4: Zusammenhang zwischen Hit, Pageview, Session und User

Abbildung 5: Agglomerative hierarchische Clusterbildung

Abbildung 6: Exemplarische Entscheidungsbaumstruktur

Abbildung 7: Zuordnung von Fragestellungen und Aufgaben im Web Mining zu Data Mining-Methoden

Abbildung 8: PR-Controlling

Abbildung 9: Zugriffszahlen auf Wochentage kumuliert

Abbildung 10: Anzahl Zugriffe auf Tageszeiten kumuliert

Abbildung 11: Geografische Herkunft der Website-Zugriffe auf der Weltkarte dargestellt

Abbildung 12: Häufigste Status Code-Meldungen im Auswertungszeitraum

Abbildung 13: Anzahl Downloads nach Tagen geordnet

Tabellenverzeichnis

Tabelle 1: Common Logfile Format und Extended Common Logfile Format

Tabelle 2: Verfälschende Logfile-Einflüsse und mögliche Gegenmaßnahmen

Tabelle 3: Informationsgehalt einer einfachen Logfileanalyse

Tabelle 4: Zusammenfassung: Informationsgehalt fortgeschrittener Logfileanalysen

Tabelle 5: HTTP Status Codes nach HTTP 1.1

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Für Unternehmen und Behörden, die im Wettbewerb mit anderen Einrichtungen ste-hen, aber auch für solche, die auf eine breite Akzeptanz angewiesen sind, ist es uner-lässlich, ein positives Bild in der Bevölkerung und in der Geschäftswelt zu haben und es zu erhalten. Für dieses Ziel ist eine gute Öffentlichkeitsarbeit (PR) nicht mehr weg-zudenken. Public Relations sind in Zeiten immer aggressiverer Webemaßnahmen kei-neswegs weniger wichtig für die Unternehmen, sondern haben sogar noch an Bedeu-tung gewonnen.

„ Die steigende Bedeutung der Public Relations ergibt sich im Ü brigen zuvorderst aus der zunehmenden Resistenz der Ö ffentlichkeit gegen ü ber der ü blichen Massenwerbung. Berichte in der neutralen Presse ü ber das Unternehmen oder seine Produkte, die durch Ö ffentlichkeitsarbeit er reicht werden, wirken hingegen wesentlich glaubw ü rdiger. “ 1

Dieses wichtige Instrument der Unternehmenskommunikation wird heute zunehmend durch das Medium Internet ergänzt. Um einen möglichst effektiven Einsatz von OnlinePublic Relations zu gewährleisten, liegt es nahe zu überprüfen, welche Verbreitung die PR über das Internet erzielt hat.

Web Log Mining ist eine Methode, über welche sich Art und Umfang der Zugriffe auf eine Internetpräsenz auswerten lassen. Durch Web Log Mining lassen sich gesammel-te Informationen über die Internetseitenbesucher und deren Verhalten auf der Internet-präsenz untersuchen und somit verborgene Zusammenhänge aufdecken. Daher ist Web Log Mining ein Instrument, Public Relations im Internet auf ihre Effektivität und Effizienz hin zu untersuchen. Bei Abweichungen von Soll-Vorgaben bieten die Ergeb-nisse eine gute Grundlage, angemessene Korrekturmaßnahmen einleiten zu können. Somit wird ein Regelkreis geschaffen, der, ausgehend von dem Ziel, ein positives Image eines Unternehmens in der Öffentlichkeit zu wahren und das Image zu verbes-sern, über die Kontrolle eingesetzter Online-PR-Maßnahmen bis hin zu aktiven Pro-zessoptimierungen den optimalen Einsatz von Online-PR gewährleisten kann.

Die vorliegende Arbeit zeigt die Möglichkeiten auf, welche Web Log Mining für das Controlling von Online-PR-Ressourcen bietet. Es werden sowohl die technischen Vorraussetzungen und Möglichkeiten, als auch der praktische Nutzen herausgearbeitet. Wird in dieser Arbeit im Zusammenhang mit Public Relations der Bezug auf ein Unternehmen hergestellt, das Public Relations betreibt, ist dies exemplarisch und kann auch für Einrichtungen, Institutionen und Organisationen stehen.

Anhand einiger Grafiken wird im Anhang die Auswertung eines Logfiles skizziert, um dem Leser einen Eindruck von Logfile-Auswertungen zu vermitteln.

Wegen der Ausrichtung des Web Log Mining auf Logfiles bleiben die Ausführungen dieser Arbeit bezüglich der Informationsquellen ebenfalls auf Logfiles beschränkt. An-dere Quellen für das Auswerten von Website-Nutzung, die beim Integrated Web Log Mining verwendet werden, wie Web-Formulare oder e-Mail, werden in dieser Arbeit nicht näher betrachtet.

1.1 Begriffsklärungen

An dieser Stelle werden einige Fachbegriffe geklärt und voneinander abgegrenzt. Somit soll eine einheitliche Verständnisgrundlage für den Leser geschaffen werden.

Public Relations (PR) ist der englischsprachige Begriff für Öffentlichkeitsarbeit. Nach Kotler et. al. hat Öffentlichkeitsarbeit die Aufgabe, „ [ … ] gute Beziehungen zu den ver schiedenen Partnern des Unternehmens in der internen (Mitarbeiter, Geldgeber) und externen Ö ffentlichkeit zu erhalten und zu pflegen. “ 2. Ziel der Öffentlichkeitsarbeit ist also, „ [ … ] dass ü ber das Unternehmen gesprochen und geschrieben wird - dass das Unternehmen im positiven Sinn nicht in Vergessenheit ger ä t. 3

Online-PR ist der Begriff für die Öffentlichkeitsarbeit, die über das Medium Internet (zum Beispiel über eine Website oder per e-Mail) umgesetzt wird.4

Controlling wird in der Literatur nicht einheitlich definiert, kann aber als Überwachung, Planung und Steuerung von Unternehmensprozessen beschrieben werden. Controlling ist gegenwarts- und zukunftsorientiert, anders als bei einer vergangenheitsorientierten Kontrolle.5

Ein Controllinginstrument ist eine Methode oder Vorgehensweise, die zur Bewältigung von Controllingaufgaben eingesetzt wird.

Das in dieser Arbeit angesprochene „PR-Controlling“ ist ein Begriff, der so in der Fachwelt nur selten auftaucht. PR-Controlling bezeichnet das Anwenden klassischer Controlling-Prinzipien auf den Bereich der PR.

Web Log Mining ist die Analyse des Verhaltens von Internetnutzern, bei der unter an-derem Data Mining-Methoden (siehe Kapitel 2.5, S. 25 ff) auf die von Webservern ge-nerierten Logfiles angewendet werden, um Interessen und Verhaltensmuster von Online-Kunden zu ergründen. Beim Web Log Mining bleibt die Datenquelle auf Logfiles beschränkt.6

1.2 Aufbau der Arbeit

Im ersten Kapitel wird ein Überblick über die Grundlagen, die Ausgangssituation und die Ergebnisse vermittelt.

Das zweite Kapitel der Arbeit stellt das Web Log Mining näher vor und thematisiert sowohl technologische und methodische als auch rechtliche Gesichtspunkte des Web Log Mining.

Kapitel drei beschreibt anschließend Web Log Mining im Rahmen der Online-PR, wobei dem PR-Controlling besondere Aufmerksamkeit geschenkt wird.

Das vierte Kapitel hat zum Inhalt, wie Web Log Mining in der Praxis als Controllinginstrument der Online-PR zum Einsatz kommen kann. Unter anderem wird hierbei auf die Auswertungsmöglichkeiten und den Nutzen für die PR eingegangen.

Schließlich wird eine Zusammenfassung der angesprochenen Themen gegeben.

2 Web Log Mining

2.1 Web Mining

Web Mining ist ein Anwendungsfeld des Data Mining, wobei die Datenbasis Nutzungsdaten einer Website sind, die vom Webserver als Logfile aufgezeichnet werden. In manchen Fällen wird die Datenbasis mit weiteren Daten angereichert oder ergänzt. Data Mining selbst ist ein Bestandteil von Knowledge Discovery in Databases (KDD), ein Prozess, der in Abbildung 1 dargestellt ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Aufbau des KDD-Prozesses7

Ausgehend von Daten, die zum Beispiel in einem Data Warehouse (DWH) abgelegt sein können, werden in der ersten Phase des KDD-Prozesses die relevanten Daten selektiert und nach so genannten Data Marts extrahiert. Data Marts sind kleinere Da-tenbanken, welche diejenigen Daten eines DWH enthalten, die für eine bestimmte An-wendung benötigt werden. Sie sind leichter handhabbar als die komplexe Datenstruk- tur eines DWH.8 Entscheidungsgrundlage für die Selektion der Daten ist stets ein kon-kret verfolgtes Ziel, das mit dem Prozess erreicht werden soll, zum Beispiel Kunden-gruppen zu identifizieren. Daran schließt sich in Phase zwei eine Vorverarbeitung an. In dieser Phase werden mögliche Fehlerquellen beseitigt, welche die beabsichtigte Untersuchung verfälschen könnten. In der dritten Phase werden die Daten transfor-miert. Das ist wichtig, um die Daten in die gewünschte Struktur zu bringen, die für die beabsichtigte Data Mining-Methode vorliegen muss. Phase vier ist der Abschnitt, in dem mit Data Mining Mustererkennung betrieben wird. Nahezu jede Data Mining-Methode erfordert eine Vorbereitung, die hierbei eingerechnet werden muss. In Phase fünf werden gefundene Muster evaluiert und interpretiert, was zu einem Informations-gewinn führt, der dem Domänenwissen (=relevantes Fachwissen) zugute kommt. Da das Domänenwissen mit jeder Interpretation von Ergebnissen zunimmt, ist der KDD-Prozess rekursiv und wird deshalb auch als „dynamisch“ bezeichnet.9

Web Log Mining ist ein abgrenzbarer Bereich des Web Mining und zeichnet sich da-durch aus, dass als primäre Datenquelle das Logfile eines Webservers verwendet wird. Bedingt durch die Datenquelle „Logfiles“ wird beim Web Log Mining vor allem unter-sucht, wie das Angebot eines Webservers genutzt wird. Im Gegensatz zum „Integrated Web Usage Mining“ wird beim „Web Log Mining“ auf zusätzliche Datenquellen, die direkt Informationen über den Besucher beinhalten, verzichtet, allein das Logfile wird untersucht.10

Eine Übersicht über die Disziplinen des Web Mining und die Einordnung des Web Log Mining gibt folgende Darstellung:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Einordnung des Web Log Mining11

Das Web Mining kennt neben Web Usage Mining noch zwei weitere Disziplinen: Das Web Content Mining hat die Suche nach Informationsinhalten zum Gegenstand und das Web Structure Mining den Aufbau und die Verlinkung von Ressourcen. Bei diesen anderen Web Mining-Disziplinen steht im Vordergrund, ursprünglich unübersichtliche Informationsmengen im Internet zu erfassen und so leichter zugänglich zu machen.

Die Produktvielfalt an Web Mining-Software ist mittlerweile groß. Einige Websites zum Thema KDD und Data Mining haben Übersichten zu Web Mining-Software erstellt, die einen Einstieg in das Softwarespektrum erleichtern.12 Eine sehr gute Übersicht bietet die Site www.kdnuggets.com .13

2.2 Logfiles

Die Datenquelle einer Web Log Mining-Untersuchung ist ein Logfile eines Webservers. Jeder Webserver erstellt während des Betriebs Logfiles zu unterschiedlichen Zwecken, die sich im Format14 unterscheiden. Das von nahezu allen Webservern generierte Log-file-Format ist das so genannte „Common Logfile Format“ (CLF). Häufig wird es durch zusätzliche Informationen erweitert und dann als „Extended Common Logfile Format“ (ECLF) bezeichnet. Tabelle 1 zeigt die Datenfelder, die durch diese Formate erhoben werden.

Tabelle 1: Common Logfile Format und Extended Common Logfile Format15

Abbildung in dieser Leseprobe nicht enthalten16 17

In der Praxis hängt es aber von der Konfiguration des Webservers ab, welche Daten im Logfile protokolliert werden. Logfiledateien nehmen nicht selten innerhalb kurzer Zeit umfangreiche Dateigrößen an. Deshalb gibt es auch Webserver, die ein „abgespecktes“ Logfileformat haben, um den erforderlichen Speicherplatzbedarf in Grenzen zu halten. Werden für regelmäßige Auswertungen der Logfiledaten lückenlose und detaillierte Datenbestände benötigt, muss das Logfile in regelmäßigen Abständen (in der Regel täglich oder wöchentlich) archiviert werden.18

2.3 Der Web Log Mining Prozess

Innerhalb des Web Log Mining sind einige Schritte notwendig, um aussagekräftige Er-gebnisse zu erhalten. Diese bauen größtenteils aufeinander auf, manche Schritte kön-nen nur ausgeführt werden, wenn vorhergehende abgeschlossen sind. Web Log Mi-ning ist damit ein Prozess, der von einigen Autoren analog des KDD gestaltet wurde.19

Da bei jedem Zugriff auf eine Web-Ressource die in Tabelle 1 angeführten Informationen im Logfile des jeweiligen Webservers protokolliert werden, können diese Informationen später für Auswertungen herangezogen werden. Der Inhalt des Logfiles ist Datenbasis und Grundlage jeder weiteren Untersuchung beim Web Log Mining.

Die Logfiledaten beinhalten Kennzahlen, die in Kapitel 2.4 ab Seite 19 näher erläutert werden. Die direkt bestimmbaren, da aus einem einzigen Feld im Logfile ableitbaren Kennzahlen, zählen hierbei zu „einfachen Auswertungen“, Kennzahlen, die sich aus anderen zusammensetzen, werden unter der Überschrift „fortgeschrittene Auswertun-gen“ behandelt.

2.3.1 Ablauf des Web Log Mining

Der in folgender Abbildung dargestellte Ablauf ist analog zu den Phasen des KDDProzesses aufgebaut. Im Web Log Mining kommen aber nicht allein Data MiningTechniken zum Einsatz, sondern auch so genannte Logfile-Analysen, die sich mit der Ermittlung von Logfile-Kennzahlen beschäftigen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Ablauf der Web Log Mining Analyse20

Bei der Aufgabendefinition wird festgelegt, welche Ziele in einer konkreten Untersuchung verfolgt werden sollen. Die definierten Ziele bestimmen entscheidend, wie in den folgenden Schritten weiter vorgegangen wird. Beispiele für Abhängigkeiten zum späteren Web Log Mining-Prozess sind:

- Start- und Endpunkt der Logfile-Erhebung (beziehungsweise zu untersuchende Zeitspanne)
- Art der Datenaufbereitung (ETL-Maßnahmen21 )
- Art und Umfang der Mustersuche: Techniken, Aufwand, Dauer, etc.

Die Datenauswahl ist der Schritt, bei dem die zur Untersuchung notwendigen Daten erhoben beziehungsweise herangezogen werden. Sollen vergangene Zeiträume untersucht werden, sind die bestehenden Datenstrukturen in der Regel fixiert. Wenn die Daten erst noch erhoben werden sollen, hat dies den Vorteil, dass das Format des Logfiles angepasst werden kann. Es können Datenfelder hinzugefügt werden und die Syntax der Datenfelder kann beeinflusst werden.

Der Prozessschritt der Datenaufbereitung ist eng verknüpft mit der Datenintegration und aus mehreren Gründen besonders wichtig. Vorrangig werden im Rahmen der gegebenen Möglichkeiten unerwünschte, verfälschende Einflüsse aus dem Datenbestand herausgefiltert und, wenn nötig, eliminiert. Zum Beispiel verfälschen Zugriffe des Administrators einer Website die Aussagekraft des Logfiles und sollten im Logfile gelöscht werden. Nicht alle verfälschenden Einflüsse können jedoch eliminiert oder behoben werden, es ist aber wichtig einschätzen zu können, welche Aussagekraft ein Logfile hat, um Ergebnisse besser bewerten zu können. In Tabelle 2 (auf Seite 19) werden verfälschende Einflüsse in Logfiles zusammengefasst.

Neben der Bereinigung muss ein Logfile in den meisten Fällen auch einer Umformatie-rung unterzogen werden. Um Logfile-Daten in ein Analyseprogramm einlesen zu kön-nen, müssen sie im entsprechend geeigneten Format vorliegen. Für diese Aufgabe eignet sich die aus dem Data Warehousing bekannte Technologie des „Extrahieren, Transformieren und Laden“ (ETL). Beispielsweise kann es sein, dass Zeilen im Logfile zu lang sind (bedingt durch sehr lange Request- oder Referrer-Einträge) um eingele-sen werden zu können. Ohne Datenaufbereitung ist kein sinnvolles Verarbeiten eines Logfiles möglich.

„ Data Mining Projekte setzen nicht nur Datenvielfalt, sondern auch quali tativ einwandfreie Daten voraus. Sind die Daten nicht redundanzfrei und konsistent, so wird jedes Data Mining Projekt scheitern. “ 22

Im Prozessschritt der Mustersuche findet das eigentliche „Mining“ (engl.: graben) nach wertvollen Informationen statt. Es wird nach interessanten und noch unbekannten Häufigkeiten, Anhängigkeiten, Mustern und weiteren Kenngrößen gesucht. Kapitel 2.5 stellt ab Seite 25 wichtige Techniken detailliert vor.

Der letzte Schritt im Web Log Mining, der Prozess der Interpretation und Umsetzung setzt die gewonnenen Erkenntnisse der Mustersuche dazu ein, den Webauftritt selbst und damit auch seine Wirkung zu verbessern. Durch diesen Prozessschritt tritt die Controllingeigenschaft in den Vordergrund.

2.3.2 Negative Einflussfaktoren bei der Datenerhebung

Es gibt eine Vielzahl denkbarer Einflüsse, angefangen von Suchmaschinen-Robots bis hin zu Anonymisier-Diensten, welche die Daten im Logfile verfälschen. Die Kenntnis über diese störenden Faktoren versetzt den Webmaster in die Lage, sich darauf einzustellen und das Logfile vor einer näheren Betrachtung zu bereinigen. Im Folgenden wird eine Übersicht der wichtigsten Faktoren gegeben, welche die Datenerhebung beeinflussen. Verfälschende Logfile-Einflüsse und mögliche Gegenmaßnahmen werden in Tabelle 2 auf Seite 19 zusammenfassend dargestellt.

Das Zwischenspeichern und Vorhalten von Teilen oder vollständigen Dateien einer Website wird als Caching bezeichnet. Als Cache kann der Browsercache fungieren, wenn dieselbe Ressource erst kürzlich genutzt wurde, und auch ein Proxyserver, der in der Regel von Providern und auch Firmennetzwerken eingesetzt wird. Proxyserver (im Folgenden auch als Proxy, pl:: Proxies, bezeichnet), werden in Netzwerken eingesetzt und speichern von Benutzern angefragte Dateien für eine bestimmte Zeit, um sie ei-nem Nutzer, der die Dateien nochmals anfragt, dann schneller zur Verfügung stellen zu können. Eine besondere Form des Caching stellen so genannte Mirror-Sites dar. Häu-fig gefragte Ressourcen werden dabei von einem oder mehreren, von der eigentlichen Website unabhängigen Server bereitgestellt. Zugriffe auf einen Mirror werden im Logfi-le des Webservers, der die Website beheimatet, nicht registriert.

Neben der schon angesprochenen Cache-Funktion, welche Proxyserver einnehmen, entsteht durch Proxies ein weiteres Problem, und zwar werden Anfragen, die über den Umweg eines Proxys gestellt werden, mit der (externen) IP-Adresse des Proxys, und nicht mit der IP-Adresse des eigentlich anfragenden Clients im Logfile festgehalten.

Eine spezielle Ausprägung von Proxies sind Anonymisier-Dienste im Internet. So ge-nannte „Anonymizer“ sind spezielle Dienste im Internet, die sich der Proxy-Technologie bedienen. Sie bieten interessierten Nutzern an, einen frei zugänglichen Proxyserver für den Internetzugriff zu verwenden. Diese teils kommerziellen Dienste bieten im Gegen-satz zu einem üblichen Proxy nicht nur die Verschleierung der IP-Adresse, sondern verfälschen und verbergen gezielt weitere Informationen wie zum Beispiel den Referrer und den Zeitstempel und machen so eine Erfassung im Logfile unmöglich.23

Das dynamische Zuweisen von IP-Adressen sowohl durch Internetprovider an ihre Kunden als auch in häufigen Fällen in Firmen macht es einem außen Stehenden unmöglich, eine bestimmte IP-Adresse einer einzigen Person zuzuordnen. Die Unkenntnis darüber, welche IP-Adressen fest vergeben werden, und welche dynamisch zugewiesen sind, weitet diesen problematischen Effekt der dynamischen Vergabe auf die fest vergebenen IP-Adressen aus. Dennoch ist über Anfragen an DNS-Server (DNS: Domain Name System) über spezielle Dienste im Internet ein Eingrenzen und Zuordnen von IP-Adressen zumindest auf Firmen und Provider möglich. So kann zum Beispiel mit Sicherheit eine Aussage darüber getroffen werden, über welchen Provider oder von welchem Unternehmen ein Logfile-Eintrag stammt.

Computer, die von mehreren Personen für die Internetnutzung verwendet werden, ver-fälschen etwaige Logfileauswertungen dadurch, dass unter Umständen angenommen wird, ein und dieselbe Person tätigt die von dem Computer ausgehenden Zugriffe. Fa-milien-PCs und Internetcafé-Computer sind klassische Vertreter solcher Multi-User- Computer.

Suchmaschinen und andere Server, die Web Content Mining betreiben, setzen so genannte Robots oder Spider ein, die automatisch im Internet nach Inhalten suchen. Dabei entstehen bei den besuchten Internetpräsenzen Logfile-Einträge, die nicht durch einen Aufruf eines Website-Besuchers entstanden sind und damit für eine Web LogAnalyse irrelevant sind. In aller Regel werden solche Einträge anhand der Host-ID entfernt und gegebenenfalls einer gesonderten Auswertung zugeführt.

2.3.3 Website-Architektur

Die Website-Architektur weist - vor allem bei größeren Web-Auftritten - sowohl hardware- als auch softwareseitig an einigen Stellen Besonderheiten auf, die von der standardmäßigen Logfile-Erstellung abweichen. Bei grossen Internetpräsenzen und auch bei Online-Shops werden beispielsweise mehrere Server dazu eingesetzt, Daten für die Website zur Verfügung zu stellen.

Durch geeignete Verfahren kann sichergestellt werden, dass die Logfiledaten möglichst wenig durch externe Einflüsse verfälscht werden und somit die größte erzielbare Aussagekraft und Datenqualität erhalten. Es gibt verschiedene Maßnahmen hierzu, die nun vorgestellt werden.

Cookies dienen hauptsächlich dem Wiedererkennen von Benutzern (Usern), die eine Website zuvor schon einmal besucht haben. Sie werden aber auch dazu eingesetzt, zusammenhängende Besuche auf einer Website zu identifizieren. Das erleichtert auch das Identifizieren von Sessions (auch Sitzungen oder zusammenhängende Besuche genannt). Generell werden zwei Arten von Cookies unterschieden: persistente und transiente Cookies. Persistente Cookies sind mittel- oder längerfristig auf einem Com-puter gespeichert. Transiente Cookies befinden sich nur für die Dauer einer Sitzung im Arbeitsspeicher des Computers und werden nicht dauerhaft gespeichert.

Netzwerk- oder Server-Monitore kommen bei größeren Internetpräsenzen zum Einsatz. Sie sind eigene Server im Netzwerk des Website-Servers und schreiben Logfiledaten in Echtzeit in eine Datenbank. Der Server-Monitor erledigt das Aufzeichnen von Logfiledaten für einen Webserver, Netzwerkmonitore können den Datenverkehr von mehreren Webservern gleichzeitig erfassen. Eine spezielle Variante des Netzwerkmonitors stellt der Reverse-Proxy-Monitor dar. Er ist zwischen den Webservern und der Internetanbindung angesiedelt und protokolliert Logdaten.24

Das Pixel-Verfahren ist ein Messverfahren des IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e. V.)25 zur Bewertung von Werbeträgern im Internet.

„ Dies wird dadurch versucht, dass alle Zugriffe auf potenziell werbef ü h rende Seiten gez ä hlt werden, um einen objektiven Vergleich zwischen unterschiedlichen Web-Sites zu erm ö glichen. “ 26

Realisiert wird dies durch eine kleine Grafik, die wegen ihrer minimalen Ausmaße auf der Webseite nicht zur Anzeige kommt, aber beim Seitenaufruf auf einem Server des IVW einen Logfile-Eintrag erzeugt, der einen Rückschluss auf die aufgerufene Seite erlaubt sowie eine Klassifizierung des Seiteninhalts beinhaltet. Durch Übergabe von Parametern sollen Proxies umgangen werden, damit jeder Aufruf einer Website, die das Pixel enthält, zu einem Eintrag im Logfile führt.27

Eine weitere Technik zur User- und Sessionidentifizierung sind Session-ID ’s. Sie kom-men bei der dynamischen Seitenprogrammierung zum Einsatz und verlängern die URL, die vom Benutzer aufgerufen wird, um eine eindeutige Zeichen- oder Ziffernkom-bination. Über den Referrer kann so ganz einfach eine Sitzung rekonstruiert werden. Außerdem hat dieses Verfahren den großen Vorteil, dass nie eine schon zuvor von einem anderen Benutzer aufgerufene Seite vom Proxy zur Verfügung gestellt wird, weil jede URL anders ist. Das Wiedererkennen von Usern aus vorangegangen Sitzungen ist allerdings nicht möglich.28

Eine weitere Möglichkeit, Benutzer zu erkennen und ihre Bewegungen auf der Website zu verfolgen, ist das als Subskriptions-Funktion bezeichnete Anmelden der Benutzer auf der Website. Hierdurch kann in Kombination mit Session-ID’s und Cookies eine maximale Transparenz der Useraktionen erreicht werden. Manche Websites knüpfen die Anmeldung an der Website an einen Mehrwert für den Nutzer, indem bestimmte Funktionalitäten des Internetauftritts nur nach Anmeldung verfügbar sind.

Tabelle 2: Verfälschende Logfile-Einflüsse und mögliche Gegenmaßnahmen29

Abbildung in dieser Leseprobe nicht enthalten

Auch bei Kenntnis aller möglichen Einflüsse, die eine exakte Erhebung behindern könnten, sollte der Einsatz von Gegenmaßnahmen immer in einem wirtschaftlich vertretbaren Maß stattfinden. Oft reicht die Kenntnis über potentielle Störfaktoren aus, um am Ende einer Logfileanalyse brauchbare Ergebnisse zu erzielen, ohne kostenintensive Bereinigungen an den Logfiledaten durchgeführt zu haben.

2.4 Logfile-Kennzahlen

Es gibt einige typische Kennzahlen, die in der Praxis eine weite Verbreitung gefunden haben, um die Attraktivität von Websites zu messen.30 Diese werden im Folgenden in zwei Gruppen eingeteilt: In „einfache Auswertungen“, die allein aus der Betrachtung eines Feldes (zum Beispiel dem Referrer) heraus ein Ergebnis liefern können, und in „fortgeschrittene Auswertungen“, bei denen eine Kombination von Datenfeldern zu ei-nem Ergebnis führt.

Komplexe Sachverhalte und umfangreiche Datenmengen lassen sich durch die Ver-wendung von Modellen anschaulich abbilden. Dabei werden vorhandene Datenmen-gen (zum Beispiel die eines Logfiles) in unterschiedlichen Bereichen zusammengefasst und entweder anhand mathematischer Formeln oder über sachliche und logische Zusammenhänge miteinander verknüpft.31 Mathematische Kennzahlensysteme sind hierarchisch aufgebaut, eignen sich aber nach Schwickert / Wendt nicht gut für die Beschreibung der Website-Nutzung:

„ Zur Beschreibung der Web-Site-Aktivit ä t ist ein hierarchisches System nicht geeignet, da die Messgr öß en der Web-Site-Nutzung nur teilweise in einem mathematischen Zusammenhang stehen. “ 32

Deshalb erfolgt die Einteilung der Logfile-Kennzahlen in sachgegebenen Zusammenhängen. Absolute Zahlen und Verhältnisse, die mit einem zeitlichen Bezug kombiniert werden können, werden ausgewertet. Diejenigen Kennzahlen, die für eine Untersuchung relevante Informationen liefern können, werden betrachtet und gegebenenfalls kombiniert. Der Detaillierungsgrad kann sehr unterschiedlich ausfallen, je nachdem, welchen Hintergrund die Untersuchung hat.33

2.4.1 Einfache Auswertungen

Schon mit einfachen Werkzeugen lassen sich aus Logfiles interessante Informationen gewinnen. Tabelle 3 auf Seite 22 zeigt Kennzahlen, die mit Logfile-Analysepro-grammen festgestellt werden können und jeweils auf einem Feld eines Logfiles beruhen. Die einzelnen Felder werden nachfolgend erläutert.

Aus dem Feld „Date / Time“ lässt sich (unter Berücksichtigung der Zeitzone) leicht fest-stellen, zu welchen Tageszeiten die meisten Zugriffe stattfinden. Nicht selten macht es auch einen Unterschied, welcher Wochentag betrachtet wird. Internetpräsenzen, die private Rezipienten oder Zielgruppen haben, müssen sich zu späten Tageszeiten und an Wochenend- und Feiertagen auf die meisten Zugriffe einstellen. Hingegen sind bei Business-orientierten Internetpräsenzen häufige Zugriffe an Werktagen zu erwarten.

Das Feld „Request“ im Common Logfile Format (CLF) gibt an, welche Ressource an-gefordert wurde. Ein statistisches Ranking der am h ä ufigsten angefragten Seiten lässt Rückschlüsse darauf zu, welche Bereiche einer Website besonders genutzt werden. Es gibt aber auch Seiten, die ungewollt häufig in die Statistik mit einfließen, zum Bei-spiel Einstiegsseiten. Sie werden häufig als Startseite im Browser definiert und werden bei jedem Browserstart aufgerufen, egal ob der jeweilige Anwender diese dann auch nutzt.

[...]


1 explido (2003). URL: http://www.promotionwelt.de/marketingmix_online_pr.htm - Zugriff am 15.10.2003.

2 Kotler, P. et al. (2003), S. 946

3 Kotler, P. et al. (2003), S. 946

4 vgl. explido (2003). URL: http://www.promotionwelt.de/marketingmix_online_pr.htm - Zugriff am 15.10.2003.

5 vgl. Schwickert, A. C. / Beiser, A. (1999) URL: http://wi.uni-giessen.de/gi/dl/showfile/Schwickert/1155/Apap_WI_1999_07.pdf -Zugriff am: 19.11.2003. - S. 4 f

6 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7

7 vgl. Bensberg, F. (2001), S. 72 [aufbauend auf Fayyad, U. M. et al. (1996), S. 10] und vgl. Fayyad, U. M. / Piatetsky-Shapiro, G. / Smyth P. (1996), - URL: http://www.aaai.org/Library/Magazine/Vol17/17-03/Papers/ AIMag17-03-002.pdf - Zugriff am 29.11.2003. - S: 41

8 vgl. Brosius, G. (2001), S. 33

9 Bensberg, F. (2001), S. 72

10 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7

11 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7 f

12 vgl. Bolz, C. (2001), URL: http://www.bolz.org/Vergleich_Web_Mining_Software.PDF - Zugriff am 06.12.2003. - S. 6

13 vgl. KDnuggets (2003): URL: http://www.kdnuggets.com/software/web.html - Zugriff am 06.12.2003.

14 Dies sind zum Beispiel Zugriffsprotokolle, Fehlerprotokolle oder Anwendungsprotokolle.

15 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 10

16 Siehe auch Anhang B: HTTP Status Codes auf Seite 57

17 „OS“ steht für Operating System (Betriebssystem).

18 vgl. Bürlimann, M. (1999), S. 225

19 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 8 sowie Bensberg, F. (2001), S. 133

20 Aus: Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 8 f

21 ETL steht für „Extrahieren, Transformieren und Laden“

22 Rapp, R. / Guth, S. (2003), S. 175

23 vgl. Marschall, N. (2002), S. 82

24 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 11 ff

25 IVW (2003), URL: http://www.ivwonline.de, Zugriff am 11.11.2003

26 Säuberlich, F. (2002), S. 113

27 vgl. Säuberlich, F. (2002), S. 113 f

28 vgl. Säuberlich, F. (2002), S. 111

29 vgl. Säuberlich, F. (2002), S. 114 und vgl. Marschall, N. (2002), S. 51 ff

30 vgl. Marschall, N. (2002), S. 47 f

31 vgl. Schwickert, A. C. / Wendt, P. (2000), URL: http://wi.uni-giessen.de/gi/dl/showfile/Schwickert/1168/Apap_WI_2000_08.pdf -Zugriff am: 19.11.2003. - S. 3

32 Schwickert, A. C. / Wendt, P. (2000), URL: http://wi.uni-giessen.de/gi/dl/showfile/Schwickert/1168/Apap_WI_2000_08.pdf -Zugriff am: 19.11.2003. - S. 3

33 vgl. Schwickert, A. C. / Wendt, P. (2000), URL: http://wi.uni-giessen.de/gi/dl/showfile/Schwickert/1168/Apap_WI_2000_08.pdf -Zugriff am: 19.11.2003. - S. 4

Ende der Leseprobe aus 62 Seiten

Details

Titel
Web Log Mining als Controllinginstrument der PR
Hochschule
Hochschule der Medien Stuttgart  (Fachbereich Information und Kommunikation)
Note
2,0
Autor
Jahr
2003
Seiten
62
Katalognummer
V22592
ISBN (eBook)
9783638258814
Dateigröße
811 KB
Sprache
Deutsch
Schlagworte
Mining, Controllinginstrument
Arbeit zitieren
Markus Leibold (Autor:in), 2003, Web Log Mining als Controllinginstrument der PR, München, GRIN Verlag, https://www.grin.com/document/22592

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Web Log Mining als Controllinginstrument der PR



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden