Analyse von Logfile-Statistiken zur absatzpolitischen Auswertung von Internetpräsenzen


Diplomarbeit, 2001

168 Seiten, Note: 1.3


Leseprobe

FernUniversität
Gesamthochschule in Hagen
Fachbereich Wirtschaftswissenschaft
Lehrstuhl Wirtschaftsinformatik
Diplomarbeit
zur Erlangung des Grades
einer Diplom-Kauffrau
zum Thema
Analyse von Logfile-Statistiken zur
absatzpolitischen Auswertung von Internetpräsenzen
von cand. rer. oec.: Nicole Marschall
Abgabedatum:
02.10.2001

I
Inhaltsverzeichnis
Abbildungs- und Tabellenverzeichnis ...
1 Einleitung und Überblick ...
2 Einordnung der Arbeit in die absatzpolitische Thematik ...
2.1 Marketingziele einer Online-Präsenz ...
2.2 Anforderungen der Effizienzanalyse im Online-Marketing ...
2.3 Marktforschung und Online-Mining ...
2.4 Relevanz der Zielgruppenanalyse ...
2.5 Grundlagen der Internetwerbung: Platzierung und Gebühren ...
3 Technologische Grundlagen ...
3.1 Internet und World Wide Web ...
3.2 Definitionen ...
3.2.1 Webseite / Internetseite ...
3.2.2 Website / Internetsite ...
3.2.3 Homepage ...
3.2.4 Ressource ...
3.3 TCP/IP ...
3.4 Adressierung ...
3.4.1 IP-Adresse ...
3.4.2 Domain-Adresse ...
3.5 HTTP ...
3.6 Client/Server-Kommunikation ...
3.6.1 Request ...
3.6.2 Response ...
3.6.3 Keep-Alive ...
4 Datengewinnung: Logfiles ...
4.1 Logfile-Formate ...
4.1.1 Common Log Format (CLF) ...
4.1.1.1 Access Log ...
4.1.1.2 Referer Log ...
4.1.1.3 Agent Log ...
4.1.1.4 Errorr Log ...
4.1.2 Combined Log Format (DLF) ...
4.1.3 Extended Log Format (ELF) ...
4.1.4 Andere Logfile-Formate ...
4.2 Logfile-Informationen ...
4.2.1 Adresse des Clients ...
4.2.2 identd-Information ...
4.2.3 Benutzername ...
4.2.4 Datum und Uhrzeit ...
4.2.5 Request ...
4.2.6 Statuscode ...
4.2.7 Größe der Ressource ...
4.2.8 Referer ...
4.2.9 Browser-Kennung (User-Agent) ...
4.3 Exkurs: Perl-Script zur Zugriffsprotokollierung ...
IV
1
2
3
4
5
7
9
10
11
12
12
12
12
12
13
15
15
15
17
28
20
22
25
26
26
26
27
27
28
28
28
29
29
31
31
32
32
33
33
33
34
35
36
37

II
5 Datenanalyse: Auswertungsverfahren ...
5.1 Messkriterien der Erfolgskontrolle ...
5.1.1 Hit (Zugriff, Treffer) ...
5.1.2 PageImpression, PageView und View (Seitenabrufe) ...
5.1.3 User (Besucher) und Visit (Besuch) ...
5.1.4 Session (Sitzung) ...
5.1.5 AdClick ...
5.1.6 Click Through Rate (CTR) ...
5.1.7 AdImpression ...
5.1.8 Traffic ...
5.2 Weitere relevante Informationen der Erfolgskontrolle ...
5.2.1 Referring Sites und Referring URLs ...
5.2.2 Wochentag und Tageszeit ...
5.2.3 ViewTime ...
5.2.4 AdViewTime ...
5.2.5 Browser ...
5.2.6 File (Dateityp) ...
5.3 Probleme der Messung ...
5.3.1 Genauigkeit am falschen Platz ...
5.3.2 Dynamische IP-Adressen ...
5.3.3 Proxy-Server ...
5.3.4 Cache ...
5.3.5 Öffentliche Rechner ...
5.3.6 Framesets ...
5.3.7 Self-Referer ...
5.3.8 Eigene Zugriffe ...
5.3.9 Suchmaschinen ...
5.3.10 Sessions ...
5.4 Analyse-Software und Services ...
5.4.1 Verbreitete Analyse-Software ...
5.4.1.1 Freeware ...
5.4.1.2 Kommerzielle Produkte ...
5.4.2 Marketing-Services ...
5.5 IVW-Messverfahren ...
5.5.1 Ein-Pixel-Grafik ...
5.5.2 Clickstream ...
5.5.2.1 Datenaufbereitung ...
5.5.2.2 Erstellung vorläufiger Clickstreams ...
5.5.2.3 Ermittlung der Betrachtungszeit ...
5.5.2.4 Festlegung der Timeout-Zeit ...
5.5.2.5 Rekonstruktion nicht protokollierter Seitenaufrufe ...
5.6 Clusteranalyse ...
5.7 Bewertung der Auswertungsverfahren ...
6 Steuerung und Optimierung des Online-Marketings ...
6.1 Relevanz des Nutzungsprofils für das Marketing ...
6.1.1 Informationsgehalt der Gesamtanalyse ...
6.1.2 Informationsgehalt der Zeitanalyse ...
6.1.3 Informationsgehalt der Seitenanalyse ...
6.1.4 Informationsgehalt der Besucheranalyse ...
38
38
38
38
39
39
40
40
40
40
41
41
41
42
42
42
42
42
43
43
43
45
46
46
47
47
47
47
48
48
49
52
54
54
55
56
57
57
59
59
59
60
61
62
62
62
62
63
63

III
6.1.5 Informationsgehalt der Pfadanalyse ...
6.1.6 Informationsgehalt der AdClick- und Refereranalyse ...
6.1.6.1 Beispiel: Ertragsoptimierte Allokation des
Online-Werbebudgets durch Verwendung von AdClicks ...
6.1.6.2 Beispiel: Optimierung der Werbeeffizienz anhand der CTR ...
6.1.7 Informationsgehalt der Technikanalyse ...
6.2 Erweiterung des Nutzungs- zum Nutzerprofil ...
6.2.1 Zusätzliche Messkriterien der Erfolgskontrolle ...
6.2.1.1 Besucher und Kunden ...
6.2.1.2 Quote Kunde/Besucher ...
6.2.1.3 Besucherpreis ...
6.2.1.4 Kundenpreis ...
6.2.2 Verfahren und Techniken zur Erhebung von personenbezogenen Daten ...
6.2.2.1 Online-Befragung ...
6.2.2.2 Cookies ...
6.2.2.3 Benutzerkennung und Passwort ...
6.2.2.4 Push-Services (Datenfilter-Programme) ...
6.2.2.5 Lucent Personalized Web Assistent (LPWA) ...
6.2.3 Exkurs: Tarnprogramme ...
7 Rechtliche Betrachtung unter dem Aspekt des Datenschutzes ...
8 Zusammenfassende Beurteilung der Logfile-Analysen ...
8.1 Technologische Beurteilung ...
8.2 Marketingtechnische Beurteilung ...
8.3 Rechtliche Beurteilung ...
9 Zusammenfassung ...
Literaturverzeichnis ...
Aus dem Internet entnommene Literatur ...
Anhang ...
Anhang A ...
Anhang B ...
Anhang C ...
Anhang D ...
Anhang E ...
Anhang F ...
Anhang G ...
Anhang H ...
63
64
64
66
66
67
68
68
68
68
68
69
69
69
71
71
72
73
74
76
76
76
77
77
79
83
88
A1
B1
C1
D1
E1
F1
G1
H1

IV
Abbildungs- und Tabellenverzeichnis
Abb. 1. Kunde als Ausgangspunkt und Ziel ...
Abb. 2. Erfolgsspirale des Online-Business ...
Abb. 3. Erfolgsfaktoren von Online-Engagements ...
Abb. 4. Systematische Einordnung der Logfile-Analysen in die Marktforschung ...
Abb. 5. Phasen der Informationsverarbeitung ...
Abb. 6. Online-Mining als Prozess und Kapitelübersicht ...
Abb. 7. Zielgruppendifferenzierung ...
Abb. 8. Website www.freenet.de mit Bannerwerbung der Site www.regiopage.de ...
Abb. 9. Internetdienste ...
Abb. 10. ISO/OSI-Referenzmodell und TCP/IP-Ebenenmodell ...
Abb. 11. TCP/IP-Ebenen, Protokolle und Dienste ...
Abb. 12. IP-Adresse ...
Abb. 13. Hierarchische Gliederung der Domain-Adresse ...
Abb. 14. Format und Beispiel eines Uniform Ressource Locators (URL) ...
Abb. 15. Client/Server-Kommunikation ...
Abb. 16. Aufbau des Requests ...
Abb. 17. Beispiel eines Requests ...
Abb. 18. Aufbau des Responses ...
Abb. 19. Beispiel eines Responses ...
Abb. 20. Aufbau des Access Logs ...
Abb. 21. Beispiel eines Access Logs ...
Abb. 22. Beispiel eines Referer Logs ...
Abb. 23. Beispiel eines Agent Logs ...
Abb. 24. Beispiel zweier Error Logs ...
Abb. 25. Beispiel eines Hits im Combined Log Format (DLF) ...
Abb. 26. Beispiel eines Hits im Extended Log Format (ELF) ...
Abb. 27. Beispiel eines Hits im Microsoft IIS Default Logfile-Format ...
Abb. 28. Log-Eintrag eines Hits im Combined Log Format ...
Abb. 29. Log-Eintrag der IP-Adresse ...
Abb. 30. Log-Eintrag des Fully Qualified Domain Name (FQDN) ...
Abb. 31. Log-Eintrag der identd-Information ...
Abb. 32. Log-Eintrag des Benutzernamens ...
Abb. 33. Log-Eintrag des Zeitstempels ...
Abb. 34. Log-Eintrag des Requests ...
Abb. 35. Log-Eintrag des Statuscodes ...
Abb. 36. Log-Eintrag der übertragenen Datenmenge ...
Abb. 37. Log-Eintrag des Referers ...
Abb. 38. Log-Eintrag im DLF mit Suchmaschine als Referer ...
Abb. 39. Log-Eintrag der Browser-Kennung ...
Abb. 40. Funktionsweise eines Proxy-Servers ...
Abb. 41. Funktionsweise des Caches ...
Abb. 42. Darstellungsformen der Ergebnisse von Analyse-Programmen ...
Abb. 43. Image-Tag zur Einbindung der Ein-Pixel-Grafik ...
Abb. 44. Internetsite www.infonet-by-design.de ...
Abb. 45. Cookie-Eintrag ...
Abb. 46. Unterseite der Internetpräsenz www.freenet.de als Bsp. für einen Push-Service .
Abb. 47. Internetsite www.anonymizer.com als Bsp. für ein Tarnprogram ...
2
3
4
5
6
7
8
10
11
13
14
15
17
19
19
20
21
23
23
27
27
27
28
28
29
29
30
31
31
31
32
32
33
33
33
34
35
36
36
45
46
49
55
58
70
72
74

V
Tab. 1. gTLDs ...
Tab. 2. TLDs ...
Tab. 3. HTTP-Befehle ...
Tab. 4. Statuscodes ...
Tab. 5. Testdesign zur ertragsoptimierten Allokation des Online-Werbebudgets ...
16
16
18
24
65

1
1 Einleitung und Überblick
Das Internet ist in jedem Geschäftsbereich zu einem unverzichtbaren Informations- und Kommu-
nikationsmedium geworden. Auch dem Marketing werden durch die zeitlich und global unbe-
grenzten, multimedialen und interaktiven Möglichkeiten, die insbesondere das World Wide Web
bietet, neue Tore geöffnet.
Neben dem imagefördernden Effekt, den eine Website bei ihren Betrachtern und potentiellen
Kunden eines Unternehmens hinterlassen kann, spielen gut besuchte Internetsites eine wichtige
Rolle als Werbeträger. Trotz der Krise der Neuen Märkte verzeichnet die Online-Werbung in
Deutschland steigende Zahlen. Laut Ergebnissen des Marktforschungsinstituts Prognos wurden
im Jahr 2000 fast 450 Mio. DM für Internetwerbung ausgegeben. Für 2001 wird eine annähernde
Verdopplung prognostiziert [
WWW
.
WERBEFORMEN
.
DE
2001]. Dabei stellt die Bannerwerbung die
häufigste Form der Werbung dar. 1999 wurde durch den Verkauf von Werbefläche für Banner 56
Prozent des Gesamtumsatzes der Internetwerbung erzielt [B
ENNING
2000]. Die Kosten der Wer-
befläche hängen unmittelbar von der Attraktivität der Site ab, denn potentielle Werbekunden sind
an hohen Besucherzahlen interessiert. Diese wiederum sind linear abhängig vom Grad der ziel-
gruppenadäquaten Ansprache der Besucher. Zur Steigerung und Erhaltung der Besucherfrequenz
ist es daher zwingend erforderlich, die Besucher so gut wie möglich kennen zu lernen. Dazu müs-
sen ihre speziellen Bedürfnisse und Nutzungsgewohnheiten beim Besuch der Internetsite analy-
siert werden.
Möglichkeiten, die das Internet bietet, um Daten (formatierte Informationen) über Besucher zu
sammeln und auszuwerten, sollen in dieser Arbeit diskutiert werden. Grundlage hierfür bilden die
vom Web Server erzeugten Logfiles. Nach einer groben Einordnung in den absatzpolitischen
Rahmen (Kapitel 2) werden in Kapitel 3 die technologischen Grundlagen der Internetnutzung,
insbesondere die Client/Server-Kommunikation, vorgestellt. Kapitel 4 befasst sich mit der Da-
tengewinnung durch Logfiles und den daraus zu entnehmenden Informationen. Messkriterien,
Probleme der Messung und Auswertungsverfahren sind Themen des Kapitels 5. Daran schließt
sich in Kapitel 6 eine Betrachtung der Ergebnisse im Hinblick auf die Optimierung des Online-
Marketings an, wobei auch auf Möglichkeiten einer detaillierteren Datengewinnung hingewiesen

2
wird. In Kapitel 7 wird die Datenerhebung unter dem Aspekt des Datenschutzes beleuchtet. Ab-
schließend erfolgt eine zusammenfassende Bewertung der Möglichkeiten durch Logfile-
Analysen (Kapitel 8).
2 Einordnung der Arbeit in die absatzpolitische Thematik
,,Marketing als absatzmarktorientiertes Führungskonzept bezieht sich auf die Beeinflussung po-
tentieller und tatsächlicher Marktteilnehmer (insbesondere Nachfrager, Konkurrenten und Distri-
butionsmittler) zur Erreichung unternehmerischer Ziele" [H
ÜNERBERG
/M
ANN
1999]. Die klas-
sische Marketingdefinition nach M
EFFERT
(1986, S. 31) versteht Marketing als Planung, Koordi-
nation und Kontrolle aller auf die aktuellen und potentiellen Märkte ausgerichteten Unterneh-
mensaktivitäten, deren Ziele durch eine dauerhafte Befriedigung der Kundenbedürfnisse realisiert
werden. Der Kunde stellt somit Ausgangspunkt und Ziel dar, dessen Verhalten durch die Ko-
ordination des Einsatzes absatzpolitischer Instrumente beeinflusst werden soll. In der vorliegen-
den Arbeit wird dabei das Hauptaugenmerk auf die Kommunikationspolitik gerichtet, die sich
mit Planungen und Entscheidungen befasst, die für ,,die Übermittlung von Informationen und
Bedeutungsinhalten zur Beeinflussung der am Absatz beteiligten Personen" sorgen [K
1991b,
Kurs 0570, S. 1].
Abb. 1: Kunde als Ausgangspunkt und Ziel [K
1992]
Sättigung, Globalisierung und Probleme bei der Produktdifferenzierung kennzeichnen unsere
heutige und voraussichtlich anhaltende Marktsituation und erfordern einen sorgfältigen Einsatz
des Marketing- und Marktforschungsinstrumentariums [vgl. S
TEIMER
2000, S. 83].
Wünsche &
Bedürfnisse
der Kunden
Markt-
Marketing-
forschung maßnahmen
Gewinnerzielung über
dauerhafte Zufriedenstellung
der Kunden

3
Auch im WWW zwingt die Konkurrenzsituation die Website-Anbieter um die Gunst der Be-
sucher zu werben. Differenzierung gilt als unabdingbare Marketingstrategie zum Aufbau von
Kundenpräferenzen. Die eigene Internetpräsenz muss dem Kunden etwas Außergewöhnliches,
Einmaliges bieten, um sich von der Konkurrenz abzuheben. Denn gerade im Internet ist diese im-
mer nur einen Mouseclick entfernt. Erfolg im World Wide Web machen S
CHNEIDER
und
G
ERBERT
(1999, S. 103ff) davon abhängig, inwieweit es gelingt,
1.
den
Besucher
anzulocken,
2.
den
Besucher
zu
begeistern,
3. den Besucher als Kunden zu gewinnen und
4.
den
Kunden
zufriedenzustellen.
Abb. 2: Erfolgsspirale des Online-Business [vgl. S
CHNEIDER
/G
ERBERT
1999]
2.1 Marketingziele einer Online-Präsenz
Ziele, die mit einer Internetpräsenz verfolgt werden, sind in erster Linie kommunikative Ziel-
größen wie [vgl. G
RIMM
1990, Kurs 0578, S. 96]:
Besucher
begeistern
Besucher
anlocken
Kunde
zufrieden-
stellen
Besucher als
Kunde
gewinnen
Kunde/Besucher
im Mittelpunkt

4
Erhöhung des Bekanntheitsgrades
positive Beeinflussung des Images
Verbesserung des Informationsstandes
Weckung von Bedürfnissen und Kaufinteresse
Steigerung der Besuchsfrequenz und des Besuchsrhythmus
Dem Aufbau und der Erhaltung eines gewünschten Images kommt dabei als langfristige Positio-
nierung im Bewusstsein der Konsumenten die wichtigste Bedeutung zu, da hierdurch positive
Reaktionen ausgelöst werden, die sich später in ökonomischen Zielgrößen wie steigenden
Umsätzen niederschlagen können. Zuverlässige Methoden zur Messung der Imageförderung sind
jedoch noch kaum anzutreffen. Dagegen sind Änderungen der Abfragezahlen problemlos
erfassbar.
2.2 Anforderungen der Effizienzanalyse im Online-Marketing
Die Effizienz eines Internetauftritts hängt vom Bekanntheitsgrad, der Contentattraktivität (Inhalt)
und der Fähigkeit, auf nutzerindividuelle Bedürfnisse einzugehen, ab. Die abgebildete additive
Verknüpfung dieser Erfolgsfaktoren dient lediglich der modellhaften Veranschaulichung. In der
Realität existieren zwischen den drei Faktoren vielfältige Interdependenzen.
Abb. 3: Erfolgsfaktoren von Online-Engagements [vgl. D
ASTANI
2000]
Für Werbekunden ist die Auswahl einer geeigneten Website als Werbeträger (Mediaselektion)
essentiell, um mit dem gegebenen Werbebudget ,,einen möglichst hohen Beitrag zur Erreichung
der Werbeziele zu leisten" [G
RIMM
1990, Kurs 0578, S. 100].
Contentattraktivität
Individualisierung
Effizienz der Website
Bekanntheitsgrad
+ +
=

5
2.3 Marktforschung und Online Mining
Abb. 4: Systematische Einordnung der Logfile-Analysen in die Marktforschung [vgl. L
AMPE
1996, S. 120]
Absatzpolitische Entscheidungen sind zukunftsbezogen und bergen einen hohen Grad an Unge-
wissheit. Weder die Entwicklung der ökonomischen, staatlichen, technologischen, sozialen und
rechtlichen Rahmenbedingungen, in die ein Unternehmen eingebunden ist, noch das Verhalten
der Marktteilnehmer oder die Wirkung des Einsatzes der Marketinginstrumente sind bekannt.
Dadurch wird eine systematische Erforschung und Analyse des Marktes und seiner Teilnehmer
zwingend erforderlich. Grundlage erfolgreicher Marketingstrategien sind möglichst viele zweck-
orientierte Informationen. Diese tragen nach K
(1990c, Kurs 0571, S. 6) zur Identifizierung
von Marketingchancen und -problemen sowie zur Entwicklung, Anpassung und Überprüfung der
Maßnahmen und des Marketingerfolges bei [vgl. H
OLBROOK
1987, S. 214]. Der Rohstoff Infor-
mation erlangt als knappes Gut in der Marktforschung eine zentrale Bedeutung. Diesem Gut
muss in allen Phasen des Informationsverarbeitungsprozesses, der sich, wie Abb. 5 zeigt, von der
Erfassung über die Aufbereitung bis hin zur Speicherung, Darstellung und Weitergabe der
Informationen erstreckt, höchste Aufmerksamkeit und eine sorgfältige Bearbeitung gewidmet
werden. ,,Die Qualität der Information ist von der Korrektheit, der Genauigkeit, der
Vollständigkeit und vor allem von der Problemrelevanz und der rechtzeitigen Verfügbarkeit
abhängig." [G
ABRIEL
/
G
LUCHOWSKI
1998, Kurs 0821, S. 26]
Sekundärforschung
Primärforschung
Marktforschung
Beobachtung
Befragung
Erfassung von
Nutzerdaten
durch (Online-)
Fragebögen
Erfassung von
Nutzerdaten
durch
Push-Services
Registrierung
des Nutzungs-
verhaltens durch
Logfiles
Registrierung des
Nutzungs-
verhaltens durch
Cookies u.a.
Online-
Gruppen-
diskussionen
Nutzung von
Datenbanken
u.a. Quellen

6
Abb. 5: Phasen der Informationsverarbeitung [S
TEIMER
2000, S. 87]
Dem Internet-Marketing bietet das Online-Mining für die effiziente Informationsverarbeitung
Verfahren zur Datengewinnung, strukturierten Datenanalyse und zur Optimierung des
Marketings durch den Einsatz der gewonnenen Ergebnisse an (vgl. Abb. 6). Online-Mining stellt
eine Untermenge des Data Minings dar und bezeichnet ,,die Gewinnung von
entscheidungsrelevantem Wissen zur Steuerung und Optimierung von Internet-Aktivitäten"
[D
ASTANI
2000]. Ein bedeutendes Ziel der Werbeforschung ist die Messung der
Wirkungszusammenhänge zwischen Werbeeinsatz und Werbeerfolg. Die Quantifizierung
bestimmter Kenngrößen, wie Besucherfrequenz, Verweildauer etc. dienen der Festlegung von
Marktpreisen für die Internetwerbeträger. Das Online-Mining nutzt neben traditionellen
Statistikprogrammen tiefergehende Technologien, wie künstliche neuronale Netze, genetische
Algorithmen, lineare Regression und regelbasierte Systeme.
Die vorliegende Arbeit beschränkt sich auf die Untersuchung des Informationsgehalts, der
anhand von Logfile-Auswertungen gewonnen werden kann. Logfile-Analysen können als nicht-
teilnehmende, verdeckte Beobachtungen zur Erhebung von Primärdaten charakterisiert werden
(vgl. Abb. 4). Im Speziellen soll die Möglichkeit und Notwendigkeit zur Erstellung eines
Nutzungsprofils und die Abgrenzung zum individuellen Nutzerprofil diskutiert werden.
Informations-
beschaffung
Informations-
aufbereitung
Informations-
verarbeitung
Informations-
darstellung
Informations-
speicherung
Informations-
weitergabe
(Online)-Multimedia

7
Abb. 6 : Online-Mining als Prozess und Kapitelübersicht [vgl. D
ASTANI
2000]
2.4 Relevanz der Zielgruppenanalyse
Die Effizienz einer Werbeaktion setzt sich zusammen aus der adäquaten Ansprache einer be-
stimmten Zielgruppe (Kreativleistung) und der tatsächlichen Erreichung dieser Gruppe (Media-
leistung). Durch Beobachtung und Auswertung des Internetnutzungsverhaltens können diese bei-
den Determinanten im Online-Marketing erfasst und zur Messung der Werbeeffizienz herange-
zogen werden [D
ASTANI
2000].
Eine sorgfältige Zielgruppenplanung ist für jeden unternehmerischen Erfolg ausschlaggebend,
um eine bestmögliche Kundenorientierung zu gewährleisten. Für S
CHNEIDER
und G
ERBERT
(1999, S. 215) ist aus Sicht der Unternehmung die Schaffung eines ,,gläsernen Kunden"
wünschenswert. Denn wie Abb. 7 zeigt, erreicht eine Werbebotschaft auch nur einen Teil der
sorgfältig ausgewählten Zielgruppe. B
ÜRLIMANN
bezeichnet die eigentliche Zielgruppe hier als
Werbegemeinte. Die Werbeberührten sind diejenigen, die die Botschaft tatsächlich erhalten. Die
Differenz der beiden Werte wird als Streuverlust bezeichnet. Von den Werbeberührten sind
wiederum nur einige Personen so von der Botschaft beeindruckt, dass sie sie aufnehmen und

8
abspeichern. Nur wenige werden zu Werbeagierern, indem sie das beworbene Produkt kaufen,
oder wie im vorliegenden Fall, eine beworbene Website aufrufen.
Abb. 7: Zielgruppendifferenzierung [B
ÜRLIMANN
1999]
Eine differenzierte Marktbearbeitung erfordert eine Segmentierung des heterogenen Gesamt-
marktes in relativ homogene Gruppen mit dem Ziel der differenzierten Ansprache dieser Gruppen
[K
1992, Kurs 0574, S. 12].
Die vorliegende Arbeit betrachtet ausschließlich das Segment der Internetnutzer. Da die Gesamt-
heit der Internetnutzer aber nicht homogen ist, ist hier eine weitere Differenzierung nötig. Ziel ist
dabei, einen möglichst hohen Identitätsgrad zwischen Webangebot und einer bestimmten Zahl
Besucher zu erreichen. ,,Die genaue Kenntnis der Zielgruppe, ihrer ganz spezifischen Situation
und ihrer Bedürfnisse ist der Schlüssel zum Erfolg schlechthin." [P
OLLERT
2000, S. 28]. Für das
Internet gilt dies in verstärktem Maße, da hier der potentielle Kunde sehr direkt und unmittelbar
angesprochen wird. Die Akzeptanz einer Internetpräsenz hängt entscheidend vom ersten
Eindruck ab, den der User beim Aufruf der Site erfährt. Da dies aber zu erheblichen
Unterschieden führen kann, je nachdem, welche Zielgruppe angesprochen werden soll, ist deren
genaue Kenntnis zwingend erforderlich. Besteht die Zielgruppe beispielsweise aus
informationssuchenden Geschäftsleuten, ist es sicherlich nicht sinnvoll, die Internetseiten mit
auffälligen Grafiken, blinkenden Animationen und Sound zu überfrachten, während dies für eine
junge Zielgruppe, die nur zum Spaß surft und unterhalten werden will, der richtige Weg sein
Werbegemeinte
Werbeberührte
Werbebeeindruckte
Werbeagierer
Streuverluste

9
kann. Das Beispiel zeigt auch, dass es nicht allein um die Kenntnis der Zielgruppe, sondern um
deren Bedürfnisse in einer spezifischen Situation geht. Bedürfnisse können sowohl sachlicher als
auch emotionaler Natur sein. Will der Besucher unterhalten werden? Braucht er Rat oder
Service? Auch die Internetnutzungs-gewohnheiten werden in verschiedenen Zielgruppen sehr
unterschiedlich sein [vgl. B
ÜRLIMANN
1999, S. 107]. Im World Wide Web geht es nicht mehr nur
um die zielgruppenaffine, sondern um eine individuengerechte Informationsversorgung. Nur
wenn die Gewohnheiten und Bedürfnisse der (potentiellen) Seitenbesucher erkannt sind und das
Internetangebot eine bestmögliche Entsprechung und Lösung für spezielle Situationen bietet,
wird es gelingen, den Besucher dauerhaft an sich zu binden [vgl. P
OLLERT
2000, S. 28ff].
2.5 Grundlagen der Internetwerbung: Platzierung und Gebühren
Die Auswertung von Logfiles ist besonders für kommerzielle Websites, die ihre Seiten als Wer-
beträger vermarkten, von Interesse. Aus der Beobachtung der Kundenströme lässt sich das Wer-
bepotential der Site ableiten. Die Aufzeichnung der Nutzungsprofile ermöglicht den
Werbeträgeranbietern, ihren Kunden ein relativ flexibles Preissystem zu offerieren. Für
Werbeplatz auf häufig frequentierten Seiten werden höhere Preise veranschlagt als für weniger
besuchte Seiten. Die Abrechnung erfolgt meist pro 1000 Besucher auf dem Web Server des
Anbieters. Realistische Zahlen liegen bei ca. 10 bis 15 US-Dollar pro 1000 Besucher. Höhere
Preise sind möglich, wenn die Zielgruppe der Website des Anbieters mit der des Werbekunden
möglichst identisch ist [L
EMAY
/M
URPHY
1997, S. 401ff].
Für die Preisberechnung ist aber nicht nur die Zahl der Besucher interessant. Zusätzlich kann die
Platzierung innerhalb einer Seite zu unterschiedlichen Preisen führen. Bannerplatzierungen am
oberen Seitenrand sind teurer als die Werbeeinblendung am unteren Rand, da letztere nicht
immer im sichtbaren Bereich des Monitors liegt.
Ein anderes Abrechnungssystem nimmt nicht die Kundenfrequenz einer Site als Grundlage, son-
dern bestimmt die Preisfestsetzung anhand des tatsächlichen Anklickens eines Werbebanners. Da

10
die Zahl der Klicks wesentlich geringer ist als die Besucherzahl, muss hier der Preis
entsprechend höher angesetzt werden [L
EMAY
/M
URPHY
1997, S. 404].
Abb. 8: Website www.freenet.de mit Bannerwerbung der Site www.regiopage.de [
FREENET
2001]
3 Technologische Grundlagen
Das vorliegende Kapitel erläutert die grundlegenden Mechanismen, die es einem Internetnutzer
ermöglichen, eine Website zu besuchen. Einleitend erfolgt eine Abgrenzung zwischen Internet
und World Wide Web sowie Definitionen zur Unterscheidung der Begriffe Internetsite / Website
und Internetseite / Webseite und Homepage. Daran anschließend werden das TCP/IP (Trans-
mission Control Protocol/Internet Protocol), die Adressierung von Rechnern und das HTTP
(Hypertext Transfer Protocol) vorgestellt und die Kommunikation zwischen Browser und Web
Server untersucht.
Werbebanner

11
3.1 Internet und World Wide Web
Das World Wide Web (WWW) wird fälschlicherweise häufig als Synonym für das Internet ver-
wendet. Dabei stellt es nur einen Dienst neben den hier nicht weiter zu erläuternden, traditionel-
len Internetservices E-Mail, Gopher, File Transfer Protocol (FTP), Newsgroups und Telnet dar.
Abb. 9: Internetdienste
Das WWW entstand 1989 aus der Aufgabe des schweizerischen Kernforschungszentrums CERN
(Conseil Européen pour la Recherche Nucléaire), die auf weltweit verstreuten Computern la-
gernden Informationen zu verbinden und zugänglich zu machen, ohne dass ein Einloggen in den
jeweiligen Computer nötig wäre. Möglich wurde dies durch Hypertext, der durch Links (Ver-
weise) Verknüpfungen erstellt. Dementsprechend kann das WWW als ,,Bezeichnung für die
Menge aller Server im Internet, die Informationen meist in Form von HTML-Seiten vorhalten
und diese über das HTTP-Protokoll verfügbar machen" betrachtet werden [S
TROBEL
1997, S. 43].
Im Sommer 1991 startete das World Wide Web im Internet [D
AUM
/S
CHELLER
2000, S. 33].
Für die breite Öffentlichkeit wurde das WWW 1993 zugänglich als NCSA (National Center for
Supercomputing Applications) die erste grafische Benutzeroberfläche für die Clients - den ersten
Browser -, Mosaic, vorstellte, die Hypertext interpretieren konnte. Technologisch ausgedrückt ist
das WWW also eine verteilte Client/Server-Applikation, deren Hauptbestandteile auf Soft-
wareebene der Web Server zur Bereitstellung sowie der als Browser bezeichnete Client zur Prä-
sentation der Dokumente und auf Protokollebene das Übertragungsprotokoll HTTP und die
Internet
Web Browser
E-Mail
Gopher
FTP
WWW
News
Telnet

12
Dokumentenbeschreibungssprache HTML (Hypertext Markup Language) sind [vgl. K
AISER
/
V
OGLER
STERLE
1996, S. 140f].
3.2 Definitionen
Da die Bedeutung der in dieser Arbeit häufig verwendeten Begriffe Internetsite, Website und
Internetseite, Webseite je nach Kontext differieren kann, soll eine kurze Definition zum besseren
Verständnis beitragen. Zusätzlich erfolgt eine kontextbezogene Definition der Begriffe Home-
page und Ressource.
3.2.1 Webseite / Internetseite
Webseite und Internetseite (oder kurz Seite) bezeichnen ein einzelnes Dokument, das auf einem
Web Server gespeichert ist und mit dem Browser des Users angefordert und angezeigt werden
kann. In den meisten Fällen ist dies eine Datei im HTML-Format, in die weitere Ressourcen ein-
gebettet sein können.
3.2.2 Website / Internetsite
Eine Website oder Internetsite (oder Site) umfasst eine Menge zusammengehörender und unter-
einander verlinkter Internetseiten. Sie ist unter einer Internetadresse erreichbar und wird von der-
selben Person, Organisation oder Unternehmung publiziert.
3.2.3 Homepage
Als Homepage wird die Startseite einer Website bezeichnet. Sie kann den Besucher über den In-
halt der Site informieren und Links zu weiteren Unterseiten enthalten.
3.2.4 Ressource
Einzelne Elemente wie Fotos, Grafiken, Stylesheets, Sounds und Animationen werden als Res-
sourcen bezeichnet. Dabei ist es unrelevant, ob sie zu einer Internetseite gehören oder nicht.

13
3.3 TCP/IP
Die Datenübertragung wird im Internet durch das TCP/IP (Transmission Control Protocol/ Inter-
net Protocol) ermöglicht, das für eine systemübergreifende, globale Kommunikation zwischen
heterogenen Rechnern sorgt [S
TEIMER
2000, S. 32]. Wie jede Netzsoftware wird TCP/IP als Teil
des Betriebssystems auf dem Computer installiert und liegt somit unterhalb der Anwendungs-
Software. TCP/IP kann in mehrere Ebenen unterteilt werden. Dabei ist jedoch nur eine ungefähre
Zuordnung zum ISO/OSI-Referenzmodell (International Standards Organization/Open Systems
Interconnection) möglich, da dieses zum Zeitpunkt der TCP/IP-Entwicklung noch nicht
existierte. Demnach umfasst TCP/IP hauptsächlich die Netzwerk- und die Transportschicht des
ISO/OSI-Referenzmodells. Auf der untersten Ebene verwendet es die vorhandene Netzwerk-
Hardware. Das IP (Internet Protocol) stellt für die höheren TCP/IP-Ebenen, die sämtliche Dienste
der jeweils tieferen Ebenen in Anspruch nehmen können, eine einheitliche Schnittstelle zur
Verfügung.

14
Abb. 10: ISO/OSI-Referenzmodell und TCP/IP-Ebenenmodell [vgl. S
TROBEL
1997, S
MITH
1998]
Die Arbeitsweise des TCP/IP ist zweistufig. Das TCP auf der höheren Transportebene hat die
Aufgabe, die zu versendenden Daten in kleinere Bestandteile, sogenannte Pakete, zu zerlegen,
die in der Regel nicht größer als 1.500 Byte sind. Dazu stellt es für jeweils ein Paket eine
virtuelle Verbindung zwischen Sender und Empfänger zur Verfügung und nutzt die Dienste der
IP-Schicht. Für eine eindeutige Identifizierung einer Verbindung zwischen zwei Rechnern sind
auf der TCP-Ebene neben Absender- und Zieladresse auch die Portnummern des Senders und des
Empfängers nötig [S
TROBEL
1997, S. 10ff]. Auf der Netzwerkebene sorgt das IP anschließend für
die Übermittlung dieser Datenpakete an die angegebene Ziel-IP-Adresse, wo wiederum das TCP
das Zusammensetzen der Datenpakete übernimmt. Dies ist wichtig, da durch das Dynamic
Routing die Pakete nicht unbedingt in der richtigen Reihenfolge beim Empfänger ankommen.
Eine weitere Aufgabe des TCP ist die Gewährleistung der kompletten Datenübertragung, da
durch Leitungs- oder Übertragungsstörungen einzelne Pakete verloren gehen können. Hierzu
versieht das TCP jedes Datenpaket mit einer Kontrollsumme. Weicht diese von der beim Daten-
empfang festgestellten Summe ab, so werden die unvollständigen Pakete nochmals beim Sender
angefordert, ohne dass der Benutzer dies wahrnimmt [D
AUM
/S
CHELLER
2000, S. 31, vgl.
L
AMPRECHT
1996, S. 17f]. Der Benutzer muss sich um diese Details nicht kümmern. Für ihn
stellt TCP einen Datenstrom dar, der alle Informationen sicher vom Sender zum Empfänger
transportiert.
Sicherung
Anwendung
Darstellung
Kommunikation
Transport
Vermittlung
Bitübertragung
7
6
5
4
3
2
1
Anwendungs-
Software
(FTP, HTTP, TP,
SMTP, NNTP)
TCP
IP
Netzwerkanschluss /
Peripherie
ISO/OSI -
Referenzmodell
TCP/IP ­
Ebenenmodell

15
,,TCP/IP bildet die Basis für höhere Protokolle wie das Hypertext Transfer Protocol (HTTP), das
File Transfer Protocol (FTP), Telnet und das Simple Mail Transfer Protocol (SMTP)." [D
AUM
/
S
CHELLER
2000, S. 31].
Abb. 11: TCP/IP-Ebenen, Protokolle und Dienste [vgl. Ö
STERLE
1996, vgl. L
AMPE
1996]
3.4 Adressierung
3.4.1 IP-Adresse
Jeder mit dem Internet verbundene Computer ist durch eine IP-Adresse, die ihn eindeutig kenn-
zeichnet, erreichbar. Dabei besteht eine IP-Adresse aus einem Netz- und einem Rechner- bzw.
Hostteil. Die Rechneradresse bezeichnet einen speziellen Computer, die Netzadresse das Netz, in
dem sich dieser Computer befindet. Eine IP-Adresse ist ein 32-Bit-numerischer Wert und wird
als vier durch Punkte voneinander getrennte Dezimalzahlen angegeben. Jede dieser vier Zahlen
kann dabei einen Wert von 1 bis 254 annehmen und codiert ein Byte der IP-Nummer
[L
AMPRECHT
1996, S. 16].
62.104.203.83
Abb. 12: IP-Adresse
E-Mail
FTP
WWW
News
Telnet
TCP
SMTP
Simple
Mail
Transfer
Protocol
FTP
File
Transfer
Protocol
HTTP
Hyper-
text
Transfer
Protocol
NNTP
Network
News
Transfer
Protocol
TP
Telnet
Protocol
IP
IP

16
In Deutschland werden IP-Adressen über die Internet Service Provider (ISP) vergeben, die dazu
mit dem Deutschen Network Information Center (DENIC) bzw. der europäischen Organisations-
stelle für IP-Netze, dem RIPE, zusammenarbeiten [S
TROBEL
1997, S. 11]. Dem RIPE entspricht
in den USA das InterNIC, das zusätzlich für die Registrierung der .com-Domains zuständig ist.
3.4.2 Domain-Adresse
Das Domain Name System (DNS) ist eine spezielle verteilte Datenbank, die den numerischen IP-
Adressen alpha-numerische Domain-Adressen zuweist. Domains sind hierarchisch aufgebaut.
Dabei steht die Root Domain an erster Stelle und wird durch einen Punkt gekennzeichnet, der
jedoch zur Vereinfachung weggelassen wird. Eine Ebene tiefer befindet sich die Top Level
Domain (TLD), die in TLDs und gTLDs (Generic Top Level Domains) unterschieden werden
kann.
Tabelle 1 zeigt die ursprünglich existierenden gTLDs.
gTLD:
Bedeutung:
.com
commercial
kommerzielle Organisationen
.org
organisational
Organisationen
.gov
governmental
Regierungseinrichtungen
.mil
military
Militäreinrichtungen
.edu
educational
Bildungseinrichtungen
.net
network
Netzwerkbetreiber
Tab. 1: gTLDs [vgl. H
AUFE
1996, S. 16]
Neu auf dem Markt sind die gTLDs
.info
und
.tv
sowie die gTLD
.biz
, die erst seit Sommer
2001 vorbestellt werden kann. Die
.biz
-Registrierung ist nur für geschäftliche Internetauftritte
zulässig und gilt, laut Newsletter des ISP 1&1
P
URETEC
vom 14.07.2001, als inoffizieller Nach-

17
folger der gTLD
.com
. Jedoch sollte man mit neuen TLDs vorsichtig sein, da User eher geneigt
sind, bekannte Domains einzugeben und Webangebote unter ungewöhnlichen TLDs oft unent-
deckt bleiben.
TLDs werden als Ländernamen durch den ISO-3166-Standard (International Standards Organi-
zation) als zweibuchstabige Codes definiert. Einige bekannte Beispiele sind:
TLD:
Land:
.de
Deutschland
.it
Italien
.uk
United Kingdom
.jp
Japan
Tab. 2: TLDs
Dass für us-amerikanische Seiten die gTLD .
com
anstelle der TLD
.us
verwendet wird, hat histo-
rische Gründe.
Erst unterhalb der TLD ist die eigentliche Domain angeordnet. Optional ist eine weitere Aufglie-
derung in Sub-Domains, die beispielsweise Institute, Abteilungen oder Unterabteilungen der
Domain bezeichnen, sowie eine Untergliederung in einzelne Rechnernamen möglich. Zu beach-
ten ist, dass die Domainebenen bei der Adressierung in umgekehrter Reihenfolge aufgeführt
werden [L
AMPRECHT
1996, S. 17].
Domain Name.Top Level Domain
Abb. 13: Hierarchische Gliederung der Domain-Adresse

18
3.5 HTTP
Das WWW beruht auf dem Client/Server-Prinzip und verwendet das Hypertext Transfer Protocol
(HTTP) zur Kommunikation zwischen Web Server und Browser. Das Protokoll sorgt für die
Übermittlung der Website-Inhalte und stellt die Verbindung zwischen Browser und Server her.
HTTP ist ein zustandsloses Protokoll, das jede Anfrage des Browsers an den Web Server un-
abhängig von der vorherigen Anfrage realisiert. Das heißt, dass für jede zu übertragende Datei
eine separate Verbindung aufgebaut werden muss. Ab Version 1.1 erzeugt HTTP standardmäßig
permanente Verbindungen und unterstützt Dienste wie Authentisierung und Caching. Das
Caching reduziert den Netzwerk-Traffic, da häufig genutzte Inhalte lokal zwischengespeichert
werden können [D
AUM
/S
CHELLER
2000, vgl. K
LUTE
1996].
Zur Anforderung und Übermittlung von Dokumenten bedienen sich Client und Server ver-
schiedener HTTP-Befehle, von denen die wichtigsten hier kurz näher dargestellt werden sollen:

19
Tab. 3: HTTP-Befehle [N
EUSS
/V
ROMANNS
1996, S. 30, vgl. K
AMMERER
2001]
3.6 Client/Server-Kommunikation
Damit er auf die weltweit verteilten, auf unterschiedlichen Servern gehaltenen Datenbestände zu-
greifen kann, muss der Anwender einen WWW-Client, den Browser, starten, der mittels des
HTTP eine Verbindung zum Web Server aufbaut. Das Anfordern einer Internetseite oder Res-
source beginnt immer damit, dass der Browser einen URL erhält. Dies kann durch direkte Ein-
gabe in die Adresszeile oder durch Anklicken eines Links geschehen. Ein URL enthält eine
Protokollangabe, eine Domain-Adresse und eine Pfadangabe, die die Ressource eindeutig auf
einem bestimmten Server identifiziert. Wird eine Internetseite angefordert, ist das Protokoll
HTTP. Optional sind Portnummer und Dateiname mit Suffix. Die Portnummer entfällt, wenn der
Standardport des jeweiligen Protokolls verwendet wird, ansonsten wird sie mit Doppelpunkt von
der TLD abgetrennt [D
AUM
/S
CHELLER
2000, S. 32].
GET
Mit dem
GET
-Befehl fordert der Browser ein durch den URL (Uniform Res-
source Locator) definiertes Dokument und andere Ressourcen vom Server an.
In Verbindung mit Formulardaten übergibt
GET
Daten an eine Variable, die an-
schließend von einem CGI-Script ausgelesen und der Inhalt verarbeitet wird.
HEAD
Der browserseitige Befehl
HEAD
fordert Metainformationen über ein Dokument
an. Dabei kann es sich beispielsweise um Datentyp, Dateigröße oder das letzte
Änderungsdatum handeln.
POST
POST
dient der direkten Übergabe von Formulardaten an ein serverseitiges Pro-
gramm.
PUT
PUT
fordert eine Speicherung der übertragenen Daten unter dem angegebenen
URL.
DELETE
Als clientseitiger Befehl löscht
DELETE
die mit dem URL referenzierten Dateien
auf dem Server.
OPTIONS
Mit dem Befehl
OPTIONS
übergibt der Browser dem Server Informationen, die
die Client/Server-Kommunikation selbst betreffen.

20
Protokoll://Server.Domain-Name.TLD/Ordner/Datei.Suffix
http://www.infonet-by-design.de/ibyd/intro.htm
Abb. 14: Format und Beispiel eines Uniform Ressource Locators (URL)
Um die weiter unten beschriebenen Logfile-Einträge des Servers besser verstehen zu können, soll
hier ein Blick auf den Client/Server-Dialog geworfen werden, der bei der Anforderung und Über-
tragung von Daten erfolgt. Die Kommunikation zwischen Client und Server basiert auf einem
simplen Request-Response-Schema. Die dabei auszutauschenden Kommunikationseinheiten
heissen Messages, die eigentlichen Datenobjekte (wie HTML-Dokumente oder Ressourcen) sind
Entities.
Abb. 15: Client/Server-Kommunikation [vgl. S
MITH
1998, vgl. K
AISER
/V
OGLER
STERLE
1996]
Die Kommunikation kann optional durch Header konkretisiert werden. Kennt der Empfänger
einen angegebenen Header nicht, so kann er ihn ignorieren, so dass die Kommunikation flexibel
bleibt. Header können vier Klassen zugeordnet werden:
a) Allgemeine
Header
b) Request
Header
c) Response
Header
d)
Entity Header
Betrachtet werden hier sowie unter 3.6.1 und 3.6.2 nur die jeweils für die Logfile-Auswertungen
relevanten Header.
Client-Browser Web
Server
Response
Request
GET HTTP://www.request.de/home.htm
Internet
Internet

21
Allgemeine Header geben Informationen über die Nachricht, die gesendet wird. Im speziellen
sind dies
Date
,
X-Forwarded-For
,
Message-ID
und
Mime-Version
.
Date: Wed, 05 Apr 2001 09:55:03 GMT +0200
Date
gibt das Datum und den Zeitpunkt an, zu dem die Nachricht erzeugt wird. Als Internet-
Standard für Datum und Uhrzeit gilt der HTTP-Stempel als Untermenge des RFC 1123 (Request
For Comments). Das Format hat eine bestimmte Länge und wird ausschließlich in GMT
(Greenwich Mean Time) angegeben. Die lokale Ortszeit wird als Abweichungen zur GMT
aufgeführt.
X-Forwarded-For: by http://www.forwarder.de:8001/
(CERN/4.2)
for
sender.ibyd.de
Der
X-Forwarded-For
Header (früher
Forwarded
) kann Zwischenstationen wie beispielsweise
Proxy-Server auflisten, die eine Message auf ihrem Weg zum Empfänger passiert. Jeder For-
warder kann dabei seine Identifikation in den Header einfügen. Im oben genannten Beispiel sen-
det ein Browser auf dem Rechner
sender.ibyd.de
einen Request an einen Server, wobei der
zwischengeschaltete Proxy
www.forwarder.de
auf Port
8001
genutzt wird, der diesen Header in
den Request einfügt. Die Angabe
(CERN/4.2)
gibt zusätzlich Informationen über die
verwendete Proxy-Software.
3.6.1 Request
Zunächst baut der Client eine TCP-Verbindung zum Server auf und sendet einen Request an den
Server. Dabei gibt er den URL des gewünschten Dokuments an und sagt dem Server durch die
Request Method, was er mit dieser Datei machen soll. Häufigste Methoden sind
GET
und
HEAD
.
Mit dem
GET
-Befehl fordert der Browser eine Entity vom Server an, während mit
HEAD
nicht die
Entity selbst, sondern Metainformationen, wie Datentyp, Größe oder letztes Änderungsdatum,
abgerufen werden. Die folgende Abbildung zeigt einen typischen Request-Aufbau:
Methode Request-URL HTTP-Version
[Header]
[Entity]

22
Abb. 16: Aufbau des Requests
Zwischen Header und Entity folgt immer eine Leerzeile. Im einfachsten Fall besteht eine Anfrage
nur aus der Request-Zeile und der Leerzeile. Die eckigen Klammern kennzeichnen optionale Ele-
mente wie den Header. Request Header spezifizieren den anfragenden Browser und können dem
Server mitteilen, welche Dateiformate der Browser akzeptiert. Hierzu dienen unterschiedliche
Accept
Header. Möglich ist auch die Angabe von Qualitätsfaktoren zur Gewichtung. Genannt
werden nach einem Beispiel-Request die Header, die für die Logfile-Auswertung eine Rolle spie-
len.
GET /www/welcome.htm http/1.0
Accept: text/html
Accept: image/gif
Abb. 17: Beispiel eines Requests [vgl. N
EUSS
/V
ROMANNS
1996, S. 29,
K
LUTE
1996, S.169]
Accept: image/gif; q=0.9, image/jpeg; q=1.0; mxb=10000
Mehrere Formatangaben einer
Accept
-Zeile werden durch Komma getrennt, eventuelle
Qualitätsangaben mit Semikolon abgesetzt. Qualitätsangaben können Werte von 0,0 bis 1,0
annehmen. Zusätzlich kann eine Angabe über die maximale akzeptierte Größe der Datei erfolgen.
Im Beispiel zieht der Browser das Jpeg-Format dem Gif-Format vor, jedoch nur solange die
Datei in diesem Format nicht größer als
10.000
Bytes ist.
User-Agent: Mozilla/4.0
Die Identifikation des Browsers erfolgt anhand seines Namens bzw. seiner Produktbezeichnung,
einem Schrägstrich und der Versionsnummer. Etwaige weitere Softwarekomponenten des
Browsers werden nach dem gleichen Schema angehängt.
Referer: http://www.herkunft.de
Der Header
Referer
gibt den URL an, von dem aus der Client auf das aktuelle Dokument zu-
greift und kann so nützliche Informationen über die Navigation des Anwenders liefern. Leider ist
dieser Header - wie alle übrigen auch - optional.

23
From: info@ibyd.de
Der
From
Header kann die E-Mail-Adresse des Benutzers enthalten. Um die Privatsphäre des An-
wenders zu wahren, kann der Browser diesen Header nur senden, wenn der Anwender dies in
seinen Konfigurationsoptionen explizit erlaubt hat.
Authorization: Basic bWVpZXI6c211cnRlbjEwMg==
Sollen bestimmte Dokumente vor unberechtigtem Zugriff geschützt werden, muss ein berechtig-
ter Client dem Server in einem Authentifizierungs-Header Benutzerkennung und Passwort mittei-
len. Außerdem muss der Server erfahren, welche Authentifizierungsmethode angewandt wurde.
Im Beispiel ist dies Basic.
If-Modified-Since: Mon, 23 Apr 2001 12:45:02 GMT +0200
Hat der Client das Dokument bereits in seinem Cache zwischengespeichert, so muss der Server
es nur erneut senden, wenn eine aktuellere Version des Dokuments vorliegt. Eine neue Sendung
erfolgt im Beispiel nur, wenn das Dokument auf dem Server nach dem 23. April, 12:45:02 Uhr
Mitteleuropäischer Sommerzeit geändert wurde.
Pragma: no-cache
Mit diesem
Pragma
Header befiehlt der Client dem Proxy-Server, die Message an den
Originalserver weiterzuleiten und somit jeweils das Originaldokument zuzustellen. Der Zugriff
auf den Cache wird unterdrückt.
3.6.2 Response
Auf die Anfrage des Client-Browsers sendet der Web Server einen Response. Der Server nimmt
die Dokumentenanforderung des Clients entgegen, sucht die gewünschten Dateien oder generiert
sie dynamisch und antwortet mit der Angabe der Protokollversion, dem entsprechenden Status-
code (vgl. Tab. 4) sowie der Übermittlung der angeforderten Daten. Dabei ist zu beachten, dass
es sich bei der HTTP-Version nicht um die des Servers handelt. Vielmehr sollte der Server in der
Version antworten, in der er die Anfrage erhält. Anschließend können sowohl Server als auch

24
Client die Verbindung wieder abbauen. Dieser Schritt kann auch ausbleiben, um weitere An-
fragen zügig abwickeln zu können [K
LUTE
1996, S. 168, vgl. N
EUSS
/V
ROMANNS
1996, S. 28f].
Der Server-Response erfolgt nach dem in Abb. 18 dargestellten Schema. Die in Klammern ge-
setzten Zeilen sind dabei optional.
HTTP-Version Statuscode Text
[Header]
[Entity]
Abb. 18: Aufbau des Responses
Zur Verdeutlichung des oben dargestellten Response-Aufbaus zeigt Abb. 19 wie die Antwort
eines Servers beispielsweise aussehen könnte.
HTTP/1.0 200 OK
Date: Tuesday, 31-Jul-01 14:42:33 GMT
MIME-Version: 1.0
Server: NCSA/1.3
Content-Type: text/html
Content-Length: 4025
Last-Modified: Thursday, 05-Jul-01 16:23:17 GMT
<html>
<head>
...
Abb. 19: Beispiel eines Responses [vgl. N
EUSS
/V
ROMANNS
1996, S. 29, vgl. K
LUTE
1996, S.169]
Mit dem Statuscode informiert der Server den Browser über Erfolg oder Misserfolg einer Aktion.
Die Aufteilung der Statuscodes in fünf Bereiche erleichtert die Einordnung der Meldungen. Die
jeweiligen Bereiche sind anhand der ersten Ziffer des Codes erkennbar. Besonders die Status-
codes des 4xx-Bereichs sind eine wichtige Informationsquelle, die auf Schwachstellen der Web-
site aufmerksam machen. So können z.B. tote links aufgespürt werden.

25
Die wichtigsten Codes der fünf Bereiche werden in Tab. 4 nach
WWW
.
W
3
SCHOOLS
.
COM
(2001)
genannt.
Statuscode(-Bereich):
Bedeutung:
1xx-Bereich
100
Information
Der Server konnte nur einen Teil des Requests empfangen.
2xx-Bereich
200
Aktion erfolgreich
Die Anfrage war erfolgreich.
3xx-Bereich
301
304
Redirection (Umleitung)
Die angeforderte Seite befindet sich auf einem neuen URL.
Eine mit der auf dem Server gespeicherten Version identische
Datei befindet sich bereits im Cache und muss daher nicht erneut
übertragen werden.
4xx-Bereich
404
Client-Fehler
Die aufgerufene Datei konnte nicht gefunden werden.
5xx-Bereich
503
505
Server-Fehler
Der Server ist temporär nicht erreichbar.
Der Server unterstützt das vorgegebene HTTP-Protokoll nicht.
Tab. 4: Statuscodes [vgl.
WWW
.
W
3
SCHOOLS
.
COM
2001]
Die Antwort des Servers kann optional mit den Response-Headern
Public
,
Retry-After
,
Server
und
WWW-Authenticate
und Entity-Headern konkretisiert werden. Auch diese müssen an
dieser Stelle auf die Betrachtung der für diese Arbeit essentiellen Header beschränkt werden.
Dabei wurde auf die Ausführungen von K
LUTE
(1996, S. 170ff) Bezug genommen:
Retry-After: 60
Kann der Server eine Anfrage im Moment nicht beantworten, weil er beispielsweise überlastet
ist, so sendet er den Statuscode
503
"
Service Unavailable
". Mit einem zusätzlichen
Retry-
After
Header kann er dem Browser mitteilen, wann ein erneuter Zugriff versucht werden kann.

26
Dies kann wie oben durch eine Zeitangabe in Sekunden geschehen oder durch die Angabe eines
absoluten Zeitpunkts nach dem Internet-Zeit-Standard.
Entity Header geben Informationen über die gesendete Entity. Unterschieden werden die Entity
Header
Content-Type
,
Content-Length
,
Content-Language
,
Content-Encoding
,
Last-
Modified
,
Expires
,
Location
,
URI
,
Allow
,
Link
,
Title
,
Version
und
Derived-From
.
Content-Length: 5930
Content-Length
gibt ausschließlich die Länge der Entity in Bytes an. Daten des Headers werden
nicht mitgezählt.
Content-Language: de
Der Header zeigt die Sprache der Entity an. Im dargestellten Beispiel ist der Inhalt in deutscher
Sprache geschrieben.
Expires: Tue, 01 May 2001 16:45:52 GMT +0200
Dieser Header ist für Proxies und Browser interessant, die die Datei im Cache gespeichert halten.
Erst nach Ablauf des Gültigkeitsdatums muss die Datei erneut vom Originalserver geladen
werden.
Location: http://www.newlocation.de/
Mit Hilfe des
Location
Headers und einem Redirect-Statuscode der Klasse 3xx informiert der
Server den Browser über den Ort, wo ein verzogenes Dokument zu finden ist.
3.6.3 Keep-Alive
Eine Schwachstelle des HTTP kann vermieden werden, wenn sowohl Web Server als auch
Browser die Keep-Alive Funktion unterstützen. Während sonst für jeden einzelnen Seitenabruf
eine TCP/IP-Verbindung aufgebaut werden muss, die im Vergleich zur eigentlichen Übertra-
gungszeit des Dokuments viel Zeit beansprucht, nutzt das Keep-Alive eine Verbindung für meh-
rere Seitenabrufe. Der Server hält die Verbindung jedoch nur für eine bestimmte Zeit und eine
bestimmte Anzahl von Seitenabrufen aufrecht. Fordert der Benutzer nach dem Ablauf der
Timeout-Zeit eine weitere Seite an, so muss eine neue TCP/IP-Verbindung aufgebaut werden.

27
4 Datengewinnung: Logfiles
Ein Logfile ist eine Textdatei, in der sämtliche Zugriffe auf die Dateien, die auf einem bestimm-
ten Server gespeichert sind, protokolliert werden, egal ob es sich dabei um ein HTML-
Dokument, eine Grafik-, Sound- oder sonstige Datei handelt. Logfiles dienen der Kontrolle der
Serversoftware. Die Serversoftware protokolliert ihre eigenen Arbeitsschritte und ermöglicht
somit das Aufspüren und Nachvollziehen etwaiger Fehler [H
ENKE
1999].
Damit ist der Logfile aber auch gleichzeitig eine wertvolle Informationsquelle für das Marketing,
die Aufschlüsse über das Besucherverhalten gibt. Im Folgenden werden ausschließlich Logfiles
von Web Servern betrachtet. Andere Server, wie FTP- oder Gopher-Server, produzieren andere
Logfiles, die für diese Arbeit unrelevant sind.
Anhang A zeigt einen Ausschnitt eines Logfiles der Website
www.infonet-by-design.de
.
4.1 Logfile-Formate
Im Laufe der Zeit sind eine Reihe verschiedener Logformate entstanden, die sich hinsichtlich Art
und Umfang der in ihnen enthaltenen Informationen unterscheiden und deren Einsatz vom je-
weiligen Servertyp und Betriebssystem abhängt. Als Standard für Web Server hat sich das NCSA
Common Log Format (CLF) herausgebildet, das zunächst für NCSA's HTTPd Web Server er-
schaffen und von diesem benutzt wurde. Neben NCSA (National Center for Supercomputing
Applications) verwenden auch Apache und Netscape Server das CLF als Default Format. Wie der
Eintrag in einer Logdatei genau aussieht, lässt sich bei den gebräuchlichen Web Servern frei kon-
figurieren.
4.1.1 Common Log Format (CLF)
Das einfachste Format ist das Common Log Format (CLF). Es wird von allen Web Servern unter-
stützt. Der Zugriff auf eine Ressource wird als eine Zeile ohne Umbruch im Logfile protokolliert.
Die unterschiedlichen Informationen, die mit jedem einzelnen Zugriff erfasst werden, werden

28
durch Leerzeichen voneinander getrennt. Server, die das CLF verwenden, zeichnen unterschied-
liche Informationen in vier verschiedenen Dateien auf: Access, Referer, Agent und Error Logs
[R
IPHAGEN
/K
ANFER
1996].
4.1.1.1 Access Log
Der Access Log listet Daten über jeden Dateizugriff auf. Ein Zugriff auf eine beliebige Datei
wird als Hit oder Treffer bezeichnet. Für jeden einzelnen Hit jedes Besuchers wird ein
entsprechender Eintrag in den Access Log geschrieben, der nach dem folgenden Schema
aufgebaut ist:
IP-Nummer identd Benutzername [Datum]
"
Request
"
Statuscode Bytes
Abb. 20: Aufbau des Access Logs
Die folgende Abb. 21 zeigt einen typischen Access Log-Eintrag, wobei zu beachten ist, dass
Original-Logs keine Zeilenumbrüche enthalten. Auf die Bedeutung der Log-Informationen wird
in Kapitel 4.2 ausführlich eingegangen.
193.31.203.208 - - [26/Apr/2001:16:43:57 +0200]
"
GET /nostalgie/infonet.gif HTTP/1.0
"
200 1391
Abb. 21: Beispiel eines Access Logs
4.1.1.2 Referer Log
Referer Logs listen den URL der Datei auf, von der der Besucher auf die eigene Seite gelangt ist,
vorausgesetzt dieser folgte einem Link. Eine Zeile des Referer Logs im Common Log Format
entspricht dem folgenden Beispiel:
http://www.infonet-by-design.de/nostalgie/main.htm ->
/nostalgie/index3.htm
Abb. 22: Beispiel eines Referer Logs
Ende der Leseprobe aus 168 Seiten

Details

Titel
Analyse von Logfile-Statistiken zur absatzpolitischen Auswertung von Internetpräsenzen
Hochschule
FernUniversität Hagen
Note
1.3
Autor
Jahr
2001
Seiten
168
Katalognummer
V185691
ISBN (eBook)
9783656981428
ISBN (Buch)
9783867465670
Dateigröße
2706 KB
Sprache
Deutsch
Schlagworte
analyse, logfile-statistiken, auswertung, internetpräsenzen
Arbeit zitieren
Nicole Marschall (Autor:in), 2001, Analyse von Logfile-Statistiken zur absatzpolitischen Auswertung von Internetpräsenzen, München, GRIN Verlag, https://www.grin.com/document/185691

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Analyse von Logfile-Statistiken zur absatzpolitischen Auswertung von Internetpräsenzen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden