1 Die Notwendigkeit der Datensammlung

In den letzten Jahren hat sich das Internet zu einem der wichtigsten Kommunikations- und Informationsmittel für viele Firmen und Privatpersonen entwickelt. Dabei spielen Punkte wie Geschwindigkeit, Informationen usw. eine große Rolle. Aufgrund der weltweiten Erreichbarkeit ist mit der Pflege, dem Aufbau und der Erweiterung einer Präsenz ein sehr großer Aufwand verbunden. Denn durch die enorme Geschwindigkeit, in der eine Anwendung aufgerufen werden kann, kann der Besucher sie bei nicht gefallen auch wieder verlassen. Durch die Anstrengungen der Firmen ihr Angebot interessant und aktuell zu halten, fehlen für einen wichtigen Aspekt Ressourcen: Die Analyse des Nutzerverhaltens. In den folgenden Kapiteln werden Techniken und Möglichkeiten aufgezeigt, eine solche Analyse durchzuführen.
[...]

Excerpt

Inhaltsverzeichnis

1 Die Notwendigkeit der Datensammlung

2 Datensammlung

2.1 Grundlegende Technik im WWW

2.2 Logfiles

2.2.1 Logfile Informationen

2.3 Auswertung eines Logfiles

2.3.1 Hits

2.3.2 Verfahren der IVW

2.3.3 Clickstreams

2.4 Cookies

2.5 Dynamische Seiten

3 Webmining und der Prozess des Web Log Minings

4 Zukünftige Entwicklungstendenzen

Zielsetzung und Themen der Arbeit

Die vorliegende Arbeit untersucht technische Verfahren zur Analyse des Nutzerverhaltens im World Wide Web, mit besonderem Fokus auf die Datenerhebung und die anschließende Auswertung mittels Web-Mining-Methoden, um das Besucherverhalten in eCommerce-Anwendungen besser zu verstehen.

Methoden der Datensammlung (Logfiles, Cookies, dynamische Seiten)
Technische Grundlagen der HTTP-Kommunikation und deren Aufzeichnung
Verfahren zur Interpretation von Nutzerdaten (IVW-Standard, Clickstream-Analyse)
Prozess des Web Log Minings in fünf Phasen
Datenschutzaspekte bei der Nutzerverhaltensanalyse

Auszug aus dem Buch

2.2.2 Probleme

Die Verwendung des Logfiles als Basis der Analyse kann unter bestimmten Umständen zu Fehlern und damit zu Problemen führen. Zum Beispiel wird bei dem Mitprotokollieren der Adresse nicht der Benutzer sondern der Computer, von welchem die Anfrage aus gestartet wurde, identifiziert. Handelt es sich nun um einen öffentlichen Computer, wie z.B. in den CIP-Pools, kann nicht davon ausgegangen werden, dass es sich bei einem zweiten Eintrag um dieselbe Person handelt. Die gleiche Problematik tritt auf, wenn der Provider, über welchen sich die Benutzer einwählen, dynamische IP Adressen aus einem ihm zu Verfügung stehenden Adressen-Pool verteilt. So kann eine bestimmte IP-Adresse an zwei Tagen an unterschiedliche Benutzer vergeben werden.

Des weiteren kann es auch dazu kommen, dass unter der gleichen IP-Adresse mehrere Benutzer auf eine Webseite zugreifen. Dies geschieht immer dann, wenn die Netzwerke der Unternehmen oder Privatpersonen mit einer sog. Firewall oder mit einem Proxy ausgestattet sind. Firewalls „verstecken“ die Rechner, die an ihnen angeschlossen sind und ersetzen die IP-Adresse einer Anfrage durch die eigene. Dadurch besteht nur noch eine Verbindung zwischen Firewall und Webserver und dieser kann nicht feststellen, was sich hinter der Firewall befindet. Firewalls dienen zum Schutz von Lokalen Netzwerken [FMFB97, S. 11].

Das gleiche Phänomen tritt bei Proxys auf. Ein Proxy dient dazu Datenvolumen, das durch das „surfen“ entsteht, so gering wie möglich zu halten, um Kosten zu sparen. Dies wird realisiert, indem jede Seite, die aufgerufen wird, in dem Proxy gespeichert wird. Es erfolgt also ein Request an den Proxy, dieser vergleicht ob er die Seite in seinem Speicher hat und sendet diese, falls vorhanden, an den Anfrager zurück. Falls die Seite nicht vorhanden ist, stellt der Proxy einen Request an den Webserver und speichert diese Seite [FMFB97, S. 11]. Hier tritt also das gleiche Problem auf wie bei den Firewalls, da der Webserver nur die Adresse des Proxys sieht und nicht die des eigentlichen Anfragers.

Zusammenfassung der Kapitel

1 Die Notwendigkeit der Datensammlung: Einführung in die Relevanz der Analyse des Nutzerverhaltens für Firmen, um Internetpräsenzen wettbewerbsfähig und benutzerfreundlich zu halten.

2 Datensammlung: Übersicht über technische Grundlagen wie Logfiles, HTTP-Anfragen, Cookies und dynamische Datenbank-basierte Erfassungsmethoden.

3 Webmining und der Prozess des Web Log Minings: Erläuterung der fünf Phasen des Web Log Minings zur gezielten Extraktion und Transformation von Daten zur Analyse von Nutzerpfaden.

4 Zukünftige Entwicklungstendenzen: Ausblick auf wachsende Datenmengen und die Bedeutung des Datenschutzes angesichts der zunehmenden Beobachtung von Internetnutzern.

Schlüsselwörter

Webmining, Web Log Mining, Clickstream, Logfiles, Nutzerverhalten, HTTP, Cookies, Datensammlung, eCommerce, Web-Useability, Session, IP-Adresse, Pfadanalyse, Datenschutz, Personalisierung

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit befasst sich mit den technischen Verfahren zur Erfassung und Analyse des Verhaltens von Besuchern auf Internetseiten.

Was sind die zentralen Themenfelder?

Die Schwerpunkte liegen auf der Datenerhebung über Webserver-Logfiles, Cookies und dynamische Seiten sowie deren Auswertung mittels Web-Mining.

Was ist das primäre Ziel der Arbeit?

Ziel ist es, Methoden aufzuzeigen, mit denen das Nutzerverhalten analysiert werden kann, um die Web-Useability von Internet-Shops und Plattformen zu optimieren.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine methodische Analyse der technischen Protokollierungsmechanismen des Webs sowie eine Darstellung des fünfphasigen Web-Log-Mining-Prozesses vorgenommen.

Was wird im Hauptteil behandelt?

Der Hauptteil analysiert detailliert die Vor- und Nachteile von Logfiles, die Problematik bei der Identifizierung von Usern (z.B. durch Proxys) und die Anwendung von Mining-Technologien zur Pfad- und Sequenzanalyse.

Welche Schlüsselwörter charakterisieren die Arbeit?

Zentrale Begriffe sind Web-Log-Mining, Clickstream, HTTP-Protokoll, Datenaufbereitung, User-Identifizierung und Datenschutz.

Welche Rolle spielt die Zustandslosigkeit von HTTP bei der Analyse?

Da HTTP zustandslos ist, können Besuche nicht ohne Hilfsmittel (wie Cookies oder Session-IDs) eindeutig einem Anwender zugeordnet werden, was die Analyse erschwert.

Warum stellt das "Caching" eine Herausforderung für die Analyse dar?

Da Browser oder Proxys Seiten lokal speichern, erfolgen bei erneutem Aufruf keine Anfragen an den Webserver, wodurch diese Zugriffe nicht im Logfile protokolliert werden und die Analyse verfälschen.

Excerpt out of 12 pages - scroll top

Details

Title: Verfahren zur Analyse des Nutzerverhaltens im WWW: Clickstreams, Cookies, IP Adressen,
College: University of Würzburg (Lehrstuhl für Allgemeine BWL und Wirtschaftsinformatik)
Course: Hauptseminar: Anwendungsorientierte Informatik (Wirtschaftsinformatik 1)
Grade: 1,3
Author: Sigurd Schacht (Author)
Publication Year: 2001
Pages: 12
Catalog Number: V7525
ISBN (eBook): 9783638147644
Language: German
Tags: Clickstreams Userverfolgung Tracking Cookies
Product Safety: GRIN Publishing GmbH

Quote paper: Sigurd Schacht (Author), 2001, Verfahren zur Analyse des Nutzerverhaltens im WWW: Clickstreams, Cookies, IP Adressen,, Munich, GRIN Verlag, https://www.grin.com/document/7525

Verfahren zur Analyse des Nutzerverhaltens im WWW: Clickstreams, Cookies, IP Adressen,