Logfile-Analysen: Häufig gestellte Fragen (FAQ)
Was ist das Thema des Textes?
Der Text befasst sich umfassend mit Logfile-Analysen, insbesondere deren Problematik, wissenschaftlichen, rechtlichen und ethischen Aspekten. Er beleuchtet die Nutzung von Logfiles durch Provider und Unternehmen, das Bewusstsein der Internetnutzer für die Log-Daten, den Nutzen für Website-Betreiber sowie die Herausforderungen im Datenschutz und der Anonymität.
Welche Aspekte von Logfile-Analysen werden behandelt?
Der Text deckt ein breites Spektrum ab: Die Problematik der Logfile-Auswertung hinsichtlich des Bewusstseins der Internetnutzer und des Nutzens für Website-Betreiber; die wissenschaftliche Sichtweise, inklusive Vorgehensweise, Auswertungsmöglichkeiten (Logfile-Kennzahlen und Data Mining) und Anonymisierung; die rechtliche Sichtweise unter Berücksichtigung der Rechtslage in Deutschland, der EU und internationaler Abkommen sowie der Nutzerrechte; und die ethische Sichtweise, die das Grunddilemma Anonymität vs. Forderungen der Gesetzeshüter unter normativen, utilitaristischen und diskursethischen Aspekten beleuchtet. Zusätzlich werden Abbildungen und Tabellen zum Ablauf der Analyse, gängige Logfile-Formate und Kennzahlen bereitgestellt.
Welches Bewusstsein haben Internetnutzer bezüglich Logfile-Aufzeichnung?
Der Text argumentiert, dass viele Internetnutzer sich des Loggings ihrer Aktivitäten auf Websites nicht bewusst sind. Es werden Beispiele angeführt, die verdeutlichen, wie die Annahme von Anonymität im Internet durch die Auswertung von Logfiles widerlegt werden kann (z.B. der Fall eines Schülers, der über einen Schulcomputer einen Gästebucheintrag verfasste).
Welchen Nutzen ziehen Website-Betreiber aus Logfile-Analysen?
Website-Betreiber nutzen Logfile-Analysen, um Informationen über die Nutzung ihrer Website zu gewinnen und daraus Rückschlüsse auf die Interessen und Präferenzen ihrer Besucher zu ziehen. Dieser Nutzen kann zur Verbesserung des Webauftritts, zur gezielten Ansprache von Kunden und zur Vermarktung von Nutzerprofilen verwendet werden. Es wird jedoch auch die Schwierigkeit betont, diesen Nutzen zu erzielen, ohne gegen Datenschutzbestimmungen zu verstoßen oder das Vertrauen der Nutzer zu gefährden.
Wie läuft eine Logfile-Analyse aus wissenschaftlicher Sicht ab?
Die wissenschaftliche Vorgehensweise wird in mehreren Schritten beschrieben: Aufgabendefinition, Datenauswahl, Datenaufbereitung (inkl. Datenintegration und ETL-Technik), Mustersuche und Interpretation/Umsetzung. Der Text betont die Wichtigkeit der Datenaufbereitung, um unerwünschte Einflüsse zu entfernen und die Daten für die Analyse vorzubereiten.
Welche Auswertungsmöglichkeiten für Logfiles werden vorgestellt?
Der Text beschreibt die Auswertungsmöglichkeiten anhand von Logfile-Kennzahlen und Data-Mining-Methoden. Es werden gängige Logfile-Formate (CLF und ECLF) und Beispiele für Kennzahlen aufgeführt, die aus den Logfile-Daten abgeleitet werden können.
Welche rechtlichen Aspekte werden im Text betrachtet?
Die rechtliche Betrachtung konzentriert sich auf die Rechtslage zum Datenschutz personenbezogener Daten in Deutschland, der Europäischen Union und im Kontext internationaler Abkommen. Die Rechte der Nutzer im Bezug auf die erhobenen Daten werden ebenfalls thematisiert.
Welche ethischen Aspekte werden diskutiert?
Der Text beleuchtet das ethische Dilemma zwischen dem Recht auf Anonymität der Internetnutzer und den Anforderungen von Gesetzeshütern. Es werden normative, utilitaristische und diskursethische Perspektiven auf das Problem angewendet.
Welche Quellen werden im Text zitiert?
Der Text verweist auf verschiedene Quellen, darunter wissenschaftliche Arbeiten, Artikel und Webseiten. Die Fußnoten bieten detaillierte Informationen zu den zitierten Werken.
Wo finde ich weitere Informationen zu diesem Thema?
Die im Text genannten Literaturangaben bieten einen guten Einstieg in weiterführende Literatur zum Thema Logfile-Analysen und verwandten Gebieten.
Inhaltsverzeichnis
1 Einleitung
2 Die Problematik von Logfile-Auswertungen
2.1 Bewusstsein bei Internetnutzern
2.2 Der Nutzen für Website-Betreiber
3 Logfile-Analysen aus wissenschaftlicher Sicht
3.1 Vorgehen bei Logfile-Analysen
3.2 Auswertungsmöglichkeiten
3.2.1 Logfile- Kennzahlen
3.2.2 Data Mining
3.3 Anonymizer
4 Logfile-Analysen aus rechtlicher Sicht
4.1 Rechtslage zu personenbezogenen Daten
4.1.1 Deutschland
4.1.2 Europäische Union
4.1.3 Internationale Abkommen
4.2 Die Rechte der Nutzer
5 Logfile-Analysen aus ethischer Sicht
5.1 Das ethische Grunddilemma
5.1.1 Anonymität – ein Grundrecht
5.1.2 Forderungen der Gesetzeshüter
5.2 Darstellung des Problems aus normativer Sicht
5.3 Darstellung des Problems aus utilitaristischer Sicht
5.4 Darstellung des Problems aus diskursethischer Sicht
6 Zusammenfassung und Fazit
Literatur
Abbildungsverzeichnis
Abbildung 1: Prinzip der Logfile-Erhebung und mögliche Informationen
Abbildung 2: Ablauf der Web Log Mining Analyse
Abbildung 3: Zuordnung von Fragestellungen und Aufgaben im Web Mining zu Data Mining-Methoden
Tabellenverzeichnis
Tabelle 1: Common Logfile Format und Extended Common Logfile Format
Tabelle 2: Mögliche Logfile-Kennzahlen und korrespondierende Datenfelder
Abkürzungen
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Von Providern und Unternehmen werden sie schon intensiv genutzt, und bringen mit ihren Kennzahlen aufschlussreiche Informationen über die Nutzung von Websites zu- tage: Logfile-Analysen. Dies sind Auswertungen von Logfiles, die von Webservern auf- gezeichnet werden. Doch wenn Informationen über die Nutzung einer Website erhoben werden, werden somit Informationen von natürlichen Personen erhoben, die diese Nut- zung der Website ausüben. Den Nutzern ist meist nicht bewusst, dass ihre Bewegun- gen aufgezeichnet werden. Folgende Abbildung zeigt die prinzipielle Abfolge, bei wel- cher die Daten in Logfiles von Webservern aufgezeichnet werden:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Prinzip der Logfile-Erhebung und mögliche Informationen1
Web Log Mining ist die Analyse des Verhaltens von Internetnutzern, bei der unter an- derem Data Mining Methoden auf die von Webservern generierten Logfiles angewen- det werden, um Interessen und Verhaltensmuster von Online-Kunden zu ergründen. Beim Web Log Mining bleibt die Datenquelle auf Logfiles beschränkt.2
Wenn in dieser Arbeit von „Weblogs“ die Rede ist, sind die Logfiles von Webservern gemeint, nicht aber Tagebücher, die im Internet veröffentlicht werden und gemeinhin auch als „Weblogs“ bezeichnet werden.
Einige Argumentationen dieser Arbeit beziehen sich auf Datenschutz, Anonymität und Überwachung im Internet allgemein, die spezielle Betrachtung gilt allerdings Logfiles, wie sie von Webservern generiert werden.
2 Die Problematik von Logfile-Auswertungen
2.1 Bewusstsein bei Internetnutzern
Viele Nutzer sind sich nicht bewusst, dass ihre Aktionen im Internet auf den einzelnen Websites mitgeloggt werden. Die meisten Internetnutzer sind nicht an technischem Hintergrund des Mediums Internet interessiert, solange sie nicht darauf gestoßen wer- den, welche Aktionen neben dem simplen „Surfen im Internet“ noch ablaufen. Sie sind damit zufrieden, dass sie das Medium Internet in Anspruch nehmen können.
Drei Beispiele sollen die Unbedarftheit der Masse der Internetnutzer in Bezug auf Log- files der Webserver verdeutlichen:
1. Im März 2001 veröffentlichte Wolfgang Sander-Beuermann in der „computer- Postille“ der Universität Dortmund einen Artikel, der einen Fall beschreibt, bei dem ein Internetnutzer wider seiner Annahme, im Internet anonym seine Mei- nung zu äußern, das genaue Gegenteil erlebte: Der Internetbesuch wurde ihm im Nachhinein zugeschrieben. Gegenstand dieses Falles war, dass ein Schüler einer öffentlichen Schule über den Schulcomputer einen Gästebucheintrag un- ter einem Pseudonym auf einer Website vorgenommen hatte. Da der Eintrag Beschimpfungen enthielt, verfolgte der Webmaster anhand der IP-Adresse, un- ter der der Eintrag vorgenommen wurde die Verbindung im Nachhinein zurück und ergänzte dann den Gästebucheintrag um die Bezeichnung der Schule, als er herausfand, dass von dieser der Eintrag erfolgt war. Ein Lehrer der Schule wurde auf den Eintrag aufmerksam und konnte anhand der Uhrzeit des Gäste- bucheintrags herausfinden, welcher Schüler zu der Zeit den Schulcomputer ge- nutzt hatte.3
Dieses Beispiel zeigt, dass die Verwendung von Pseudonymen nicht unbedingt Anonymität für Internetnutzer garantieren kann. Selbst wenn jeder einzelne Da- tenhüter für seinen eigenen Datenbestand sagen kann, dass keine personen- bezogenen Daten gehalten werden, kann die Kombination von verschiedenen Datenbeständen die Identifizierung von zuvor anonymen Nutzern ermöglichen.
2. Die Suche mit Suchmaschinen ist für Internetnutzer nicht unbedingt anonym.
„Fälschlicherweise nehmen einige Nutzer an, dass der Besuch der bei Google im Zwischenspeicher beziehungsweise Cache gespeicherten Web- sites nicht protokolliert wird. Dabei überträgt der Browser an die Website die Referrer-Meldung samt Cache-Nummer und Suchbegriffen […]“ 4
Die Übermittlung von Bewegungsdaten im Internet ist vielen Nutzern nicht be- wusst. Zwar werden solche Daten in der Regel nicht an einer Stelle gesammelt, jede einzelne Website sammelt aber Daten und kann auch Informationen dar- über erhalten, welche Website zuvor besucht wurde, und im Falle einer Such- maschine oder anderer dynamischer Websites, bei denen Parameter in der URL übergeben werden feststellen, welche Parameter übergeben worden sind.
3. Links in E-Mails und dynamische Website-Links enthalten häufig so genannte Session-ID’s, die in der URL übergeben werden und dazu dienen, festzustellen, wer die entsprechende Seite aufgerufen hat.5
Die Tatsache, dass sich viele Internetnutzer nicht bewusst sind, wie stark sie beim Sur- fen im Internet überwacht werden, erfordert einerseits Aufklärung und andererseits eine Diskussion darüber, wie Internetnutzer über Logfile-Auswertungen denken und urteilen würden, wenn sie besser bekannt wären. Ein wichtiges Argument für den Schutz von Internetnutzern vor Überwachung wird in den folgenden Erörterungen das Recht auf Anonymität darstellen.
2.2 Der Nutzen für Website-Betreiber
Den Vorbehalten, die man aufgrund des möglichen Eingriffs in die Privatsphäre von Internetnutzern haben kann, steht der Nutzen gegenüber, den Website-Betreiber aus Logfile-Auswertungen ziehen können.
Dieser Nutzen ist aber teilweise erst dann besonders hoch, wenn personenbezogene Daten erhoben und weiterverarbeitet werden. Zum Beispiel ist ein eShop daran inte- ressiert zu wissen, welche Interessen und Präferenzen ein (potenzieller) Kunde hat. Wenn genau bekannt ist, welche Interessen ein spezifischer Kunde hat, kann er direkt angesprochen werden, und über dynamisch erzeugte Websites kann ihm ein auf ihn zugeschnittenes Angebot offeriert werden.
Manche Website-Betreiber vermarkten Nutzerprofile und geben so ihr Wissen über das Verhalten von Website-Besuchern gegen Bezahlung weiter. Für allgemein kostenlose Web-Angebote ist dies eine mögliche Einnahmequelle.
Für Website-Betreiber besteht die Schwierigkeit, Nutzen aus Logfiledaten zu ziehen, ohne das Vertrauen der Website-Besucher oder Kunden aufs Spiel zu setzen. Des Weiteren ist es für Website-Betreiber wichtig, bestehende Gesetze einzuhalten. Da die Rechtslage nicht einfach und teilweise noch nicht eindeutig definiert ist, besteht hierin eine weitere Schwierigkeit.
3 Logfile-Analysen aus wissenschaftlicher Sicht
3.1 Vorgehen bei Logfile-Analysen
Logfiles von Webservern enthalten zahlreiche Informationen, die allerdings aufbereitet werden müssen, um eine aussagekräftige Beurteilung über die Nutzung einer Webprä- senz liefern zu können. Dies liegt zum einen an der beträchtlichen Größe, die Logfiles innerhalb von wenigen Tagen erreichen können und dadurch unübersichtlich erschei- nen, zum anderen liegt dies daran, dass in Logfiles nicht nur erwünschte, sondern auch unerwünschte (verfälschende) Einträge vorhanden sind. Um möglichst effizient und effektiv Logfiles auszuwerten, wird die Logfile-Analyse nach einer bestimmten Vorgehensweise durchgeführt, die Vorbereitungen zur Datenanpassung berücksichtigt. Folgende Abbildung stellt den Ablauf einer Web Log Mining-Analyse dar.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Ablauf der Web Log Mining Analyse6
Bei der Aufgabendefinition wird festgelegt, welche Ziele in einer konkreten Untersu- chung verfolgt werden sollen. Die definierten Ziele bestimmen, wie in den folgenden Schritten vorgegangen wird. Beispiele für Abhängigkeiten zum späteren Web Log Mi- ning-Prozess sind:
- Start- und Endpunkt der Logfile-Erhebung (beziehungsweise die zu untersu- chende Zeitspanne)
- Art der Datenaufbereitung
- Art und Umfang der Mustersuche: Techniken, Aufwand, Dauer, etc.
Die Datenauswahl ist der Schritt, bei dem die zur Untersuchung notwendigen Daten erhoben beziehungsweise herangezogen werden. Sollen vergangene Zeiträume unter- sucht werden, muss auf bestehendes Datenmaterial zurückgegriffen werden. Wenn die Daten erst noch erhoben werden, hat dies den Vorteil, dass das Format des Logfiles noch angepasst werden kann. Es können Datenfelder hinzugefügt werden und die Syntax der Datenfelder kann beeinflusst werden.
Der Prozessschritt der Datenaufbereitung ist eng verknüpft mit der Datenintegration
und aus mehreren Gründen besonders wichtig. Vorrangig werden im Rahmen der ge-
gebenen Möglichkeiten unerwünschte, verfälschende Einflüsse im Datenbestand her- ausgefiltert und, wenn nötig, eliminiert. Zum Beispiel verfälschen Zugriffe des Administ- rators einer Website die Aussagekraft des Logfiles und sollten im Logfile gelöscht wer- den. Nicht alle verfälschenden Einflüsse können eliminiert oder behoben werden, es ist aber wichtig, einschätzen zu können, welche Aussagekraft ein Logfile hat, um Ergeb- nisse besser bewerten zu können. Verfälschende Faktoren sollten bei der Datenaufbe- reitung berücksichtigt werden. Neben der Bereinigung muss ein Logfile in den meisten Fällen auch einer Umformatierung unterzogen werden. Um Logfile-Daten in ein Analy- seprogramm einlesen zu können, müssen sie im entsprechend richtigen Format vorlie- gen. Für diese Aufgabe eignet sich die Technik des „Extrahieren, Transformieren und Laden“ (ETL). ETL ist eine Technik, die sich intensiv dieser Schnittstellenproblematik widmet. Es kann beispielsweise vorkommen, dass Zeilen im Logfile zu lang sind (be- dingt durch sehr lange Request- oder Referrer-Einträge), um eingelesen werden zu können. Ohne Datenaufbereitung ist kein sinnvolles Verarbeiten eines Logfiles mög- lich. Laut Rapp/Guth gehen Data Mining-Projekten (und damit auch Web Mining- Projekten) oft umfassende Datanqualitätsanalysen voraus.7
„Data Mining Projekte setzen nicht nur Datenvielfalt, sondern auch quali- tativ einwandfreie Daten voraus. Sind die Daten nicht redundanzfrei und konsistent, so wird jedes Data Mining Projekt scheitern.“ 8
Im Prozessschritt der Mustersuche findet das eigentliche „Mining“ (engl.: graben) nach wertvollen Informationen statt. Es wird nach interessanten Häufigkeiten, Abhängigkei- ten, Mustern und weiteren Kenngrößen gesucht.
Der letzte Schritt im Web Log Mining, der Prozess der Interpretation und Umsetzung setzt die gewonnenen Erkenntnisse der Mustersuche dazu ein, den Webauftritt selbst und damit auch seine Wirkung zu verbessern.
3.2 Auswertungsmöglichkeiten
Datenquelle einer Web Log Mining-Untersuchung ist ein Logfile eines Webservers. Jeder Webserver erstellt während des Betriebs Logfiles zu unterschiedlichen Zwecken, die sich im Format9 unterscheiden. Das von nahezu allen Webservern generierte Logfi- le-Format ist das so genannte „Common Logfile Format“ (CLF). Häufig wird es durch zusätzliche Informationen erweitert und dann als „Extended Common Logfile Format“ (ECLF) bezeichnet wird. Tabelle 1 zeigt die Datenfelder, die durch diese Formate er- hoben werden.
Tabelle 1: Common Logfile Format und Extended Common Logfile Format10
Abbildung in dieser Leseprobe nicht enthalten 11
Je nach Untersuchungstiefe werden entweder einzelne dieser Datenfelder statistisch ausgewertet, oder für eine Auswertung mehrere Felder miteinander kombiniert.
3.2.1 Logfile- Kennzahlen
Komplexe Sachverhalte und umfangreiche Datenmengen lassen sich durch die Ver- wendung von Kennzahlen anschaulich abbilden. Dabei werden vorhandene Daten- mengen (zum Beispiel die eines Logfiles) in unterschiedlichen Bereichen zusammen- gefasst und entweder anhand mathematischer Formeln oder über sachliche und logi- sche Zusammenhänge miteinander verknüpft.12
Tabelle 2: Mögliche Logfile-Kennzahlen und korrespondierende Datenfelder13
Abbildung in dieser Leseprobe nicht enthalten
[...]
1 Eigene Darstellung
2 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 7
3 vgl. Sander-Beuermann, W. (2001) - URL: http://www.hrz.uni-dortmund.de/computerPostille/ Maerz2001/11.html - Zugriff am 09.01.2004.
4 Schulzki-Haddouti, C. (2003) - URL: http://www.heise.de/tp/deutsch/inhalt/te/14052/1.html – Zugriff am: 09.01.2004.
5 vgl. Säuberlich, F. (2002), S. 111
6 Aus: Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 8f
7 vgl. Rapp, R./ Guth, S. (2003), S. 176 f
8 Rapp, R./ Guth, S. (2003), S. 175
9 Dies sind zum Beispiel Zugriffsprotokolle, Fehlerprotokolle oder Anwendungsprotokolle.
10 vgl. Hippner, H. / Merzenich, M. / Wilde, K. D. (2002-a), S. 10
11 „OS“ steht für Operating System (Betriebssystem).
12 vgl. Schwickert, A. C. / Wendt, P. (2000), S. 3
13 vgl. Marschall, N. (2002), S. 40 ff
- Arbeit zitieren
- Markus Leibold (Autor:in), 2003, Ethische Aspekte bei Logfile-Analysen zur Generierung von Nutzerprofilen, München, GRIN Verlag, https://www.grin.com/document/108555