In Kapitel 2 werden die grundlegenden Begriffe und formalen Definitionen der Clusteranalyse diskutiert. Es wird auf die NP-H¨ arte des Clustereinteilungsproblems eingegangen. Die in der Literatur bestehenden Clusterverfahren werden anhand ihrer immanenten Eigenschaften klassifiziert und Prinzipien zur Bildung von Clustern thematisiert. Ein weiterer Abschnitt des Kapitels 2 befasst sich mit Abstands- bzw. Ähnlichkeitsfunktionen, die einen wesentlichen Bestandteil von Clusterverfahren bilden.
Existierende, klassische Algorithmen zur Clusterbildung aus dem Bereich des Data Mining werden in Kapitel 3 erläutert. Nachdem die Clusterverfahren in Kapitel 2 klassifiziert wurden, werden in Kapitel 3 vier Klassen von Clusterverfahren näher beleuchtet: Hierarchische und partitionierende Verfahren, Fuzzy-Clustering und wahrscheinlichkeitsbasiertes Clustern.
In Kapitel 4 wird ein Algorithmus zur Berechnung von Benutzerprofilen vorgestellt.
Kapitel 5 gibt eine Beschreibung der Clusterbildung als Disziplin des Web Usage Mining. Der erste Abschnitt führt grundlegende Begriffe ein und motiviert
die Anwendung der Clusteranalyse im Web Mining. Des Weiteren werden in Kapitel 5 die Parameter zum Clustern von Benutzern auf der Grundlage von non-obvious-user-profiles diskutiert. Die Aufgabe des zweiten Abschnittes dieses Kapitels ist die Beantwortung der Frage: ” Was kann alles geclustered
werden?“ Im dritten und letzten Abschnitt des Kapitels 5 wird zun¨ achst allgemein und anschließend anhand eines Beispiels die Anwendung eines in der Praxis häufig eingesetzten, klassischen Clusterverfahrens auf non-obvious-userprofiles erläutert.
Das Kapitel 6 ist der Vorstellung verwandter Arbeiten im Web Mining Umfeld gewidmet. Es werden sowohl zahlreiche, in der Literatur diskutierte Clusterverfahren als auch Ähnlichkeitsmaße präsentiert, erläutert, miteinander verglichen und kritisiert.
In Kapitel 7 werden einige mögliche Anwendungen der Clusteranalyse im Bereich des Web Usage Mining diskutiert. Im Einzelnen handelt es sich um Recommender Systeme, Adaptive Websites, Prefetching Systeme und die selektive Kontaktierung von Kundengruppen.
Kapitel 8 gibt eine Zusammenfassung der vorliegenden Arbeit.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Einführung in Information Retrieval und Data Mining
- 1.2 Einführung in die Clusteranalyse
- 1.3 Überblick über die Arbeit
- 2 Grundlagen der Clusteranalyse
- 2.1 Begriffe und formale Definitionen
- 2.2 Optimales Clustern ist NP-hart.
- 2.2.1 Objekte in unterscheidbaren Clustern
- 2.2.2 Objekte in ununterscheidbaren Clustern
- 2.2.3 Beweis nach Garey und Johnson
- 2.3 Klassifikation der Clusterverfahren
- 2.3.1 Hierarchische Clusterverfahren
- 2.3.2 Partitionierende Clusterverfahren
- 2.3.3 Disjunkte vs. nicht-disjunkte Verfahren
- 2.3.4 Deterministische vs. probabilistische Verfahren
- 2.3.5 Monothetische vs. polythetische Verfahren
- 2.3.6 Scharfe vs. Fuzzy-Verfahren
- 2.3.7 Inkrementelle vs. nicht-inkrementelle Verfahren
- 2.3.8 Überwachte vs. unüberwachte Verfahren
- 2.3.9 Unvollständige vs. vollständige Verfahren
- 2.4 Prinzipien zur Bildung der Cluster
- 2.5 Abstandsfunktionen
- 2.5.1 Begriffe, Definitionen
- 2.5.2 Wichtige Distanzmaße für metrische Variablen
- 2.5.2.1 Distanzmaße auf Basis der verallgemeinerten Minkowski-Metrik
- 2.5.2.2 Ein Beispiel zur verallgemeinerten Minkowski-Metrik
- 2.5.2.3 Probleme der diskutierten Distanzmaße
- 2.5.2.4 Transformation auf eine einheitliche Skala
- 2.5.2.5 Gewichtung der Merkmale
- 2.5.2.6 Die Mahalanobis-Distanz
- 2.5.2.7 Das Kosinusmaß
- 2.5.3 Distanzmaße für Merkmale mit binärem Wertebereich
- 2.5.4 Aufstellen der Ähnlichkeitsmatrix
- 2.6 Kategorienützlichkeit
- 2.7 Darstellung von Clustern
- 3 Klassische Clusteralgorithmen
- 3.1 Hierarchische Verfahren
- 3.1.1 Hierarchisch agglomerierender Algorithmus
- 3.1.2 Single Pass Clustering
- 3.1.3 Ein graphentheoretischer Algorithmus
- 3.2 Partitionierende Verfahren
- 3.2.1 Squared Error Methode
- 3.2.2 K-means Algorithmus
- 3.3 Fuzzy-Clustering
- 3.3.1 Unscharfe Mengen, Zugehörigkeitsfunktion
- 3.3.2 Fuzzy-c-means Algorithmus
- 3.4 Wahrscheinlichkeitsbasiertes Clustering
- 3.4.1 EM-Algorithmus
- 4 Non-obvious user profiles (NOPs)
- 4.1 Motivation
- 4.2 Algorithmus zur Erstellung von NOPs
- 4.3 Messen der Ergebnisse
- 4.3.1 Einbinden eines Feedback-Mechanismus
- 4.3.2 Nutzen der Feedback-Informationen
- 5 Clusterbildung als Disziplin des Web Usage Mining
- 5.1 Motivation, Grundlagen
- 5.2 Parameter zum Clustern von Benutzern auf Basis von NOPs
- 5.2.1 Auf der Website angebotene Themen
- 5.2.2 Zeitliche Interessensänderungen der Benutzer
- 5.2.3 Vertrauenswürdigkeit der Benutzer
- 5.2.4 Navigationspfade der Benutzer
- 5.2.5 Durchschnittliche Sessiondauer
- 5.2.6 Anzahl Sessions
- 5.2.7 Persönliche Daten der Benutzer
- 5.3 Anwendung klassischer Clusteralgorithmen auf Benutzerprofile
- 5.3.1 Anwendung des K-means-Algorithmus auf die Clusterbildung von NOPs in Bezug auf Themen
- 5.3.2 Beispiel zur Anwendung des K-means-Algorithmus
- 6 Verwandte Arbeiten im Web Mining Umfeld
- 7 Anwendungsgebiete der Clusteranalyse
Zielsetzung und Themenschwerpunkte
Diese Diplomarbeit befasst sich mit dem Clustering von Benutzerprofilen bei Web-Portalen. Ziel ist die Entwicklung und Evaluierung von Methoden zur effektiven Gruppierung von Benutzern basierend auf ihrem Nutzungsverhalten. Die Arbeit untersucht verschiedene Clusterverfahren und deren Anwendbarkeit auf diesen Kontext.
- Anwendung der Clusteranalyse auf Web-Usage-Daten
- Bewertung verschiedener Clusteralgorithmen hinsichtlich ihrer Eignung für die Benutzerprofilierung
- Entwicklung eines Ansatzes zur Berücksichtigung von "Non-obvious user profiles"
- Analyse relevanter Parameter für die Clusterbildung
- Diskussion der Anwendungsgebiete der gewonnenen Erkenntnisse
Zusammenfassung der Kapitel
1 Einleitung: Dieses Kapitel führt in die Themen Information Retrieval, Data Mining und Clusteranalyse ein und gibt einen Überblick über den Aufbau und die Zielsetzung der vorliegenden Arbeit. Es bietet einen Kontext für die anschließende detaillierte Auseinandersetzung mit den verschiedenen Aspekten des Benutzerprofil-Clusterings im Web-Umfeld.
2 Grundlagen der Clusteranalyse: Dieses Kapitel legt die theoretischen Grundlagen für die weitere Arbeit. Es definiert zentrale Begriffe der Clusteranalyse, beweist die NP-Härte des optimalen Clusterns und klassifiziert verschiedene Clusterverfahren nach verschiedenen Kriterien (hierarchisch, partitionierend, disjunkt, deterministisch usw.). Es werden auch Abstandsfunktionen und deren Eigenschaften detailliert beschrieben und verschiedene Distanzmaße für metrische und binäre Daten vorgestellt, inklusive der Mahalanobis-Distanz und des Kosinusmaßes. Die Bedeutung der Kategorienützlichkeit und die Darstellung von Clustern werden ebenfalls beleuchtet.
3 Klassische Clusteralgorithmen: In diesem Kapitel werden klassische Clusteralgorithmen vorgestellt und erläutert. Es werden sowohl hierarchische Verfahren (agglomerativer Algorithmus, Single Pass Clustering, graphentheoretischer Algorithmus) als auch partitionierende Verfahren (Squared Error Methode, K-means Algorithmus) detailliert beschrieben. Darüber hinaus werden Fuzzy-Clustering und wahrscheinlichkeitbasierte Verfahren (EM-Algorithmus) behandelt. Das Kapitel bietet einen umfassenden Überblick über etablierte Methoden der Clusteranalyse, die später auf Benutzerprofile angewendet werden.
4 Non-obvious user profiles (NOPs): Dieses Kapitel widmet sich der Motivation und der Methodik zur Erstellung von "Non-obvious user profiles" (NOPs). Es beschreibt einen Algorithmus zur Generierung dieser Profile und erläutert, wie die Ergebnisse gemessen und durch einen Feedback-Mechanismus verbessert werden können. Die Bedeutung der Rückkopplungsinformationen für die Genauigkeit und Aussagekraft der Cluster wird betont. Der Fokus liegt auf der Erkennung von Nutzerverhalten, das nicht auf den ersten Blick offensichtlich ist.
5 Clusterbildung als Disziplin des Web Usage Mining: Kapitel 5 befasst sich mit der Anwendung der Clusteranalyse im Kontext von Web Usage Mining. Es erläutert die relevanten Parameter für die Clusterbildung von Benutzern auf Basis von NOPs, wie z.B. die auf der Website angebotenen Themen, zeitliche Interessensänderungen, Vertrauenswürdigkeit, Navigationspfade, Sessiondauer, Anzahl der Sessions und persönliche Daten. Es folgt eine detaillierte Beschreibung der Anwendung klassischer Clusteralgorithmen, insbesondere des K-means-Algorithmus, auf die Benutzerprofile.
Schlüsselwörter
Clusteranalyse, Web Usage Mining, Benutzerprofile, K-means Algorithmus, Non-obvious user profiles (NOPs), Web-Portalen, Information Retrieval, Data Mining, Abstandsfunktionen, Hierarchische Clusterverfahren, Partitionierende Clusterverfahren.
Häufig gestellte Fragen zur Diplomarbeit: Clusteranalyse von Benutzerprofilen bei Web-Portalen
Was ist der Hauptfokus dieser Diplomarbeit?
Die Diplomarbeit konzentriert sich auf das Clustering von Benutzerprofilen bei Web-Portalen. Ziel ist die Entwicklung und Evaluierung von Methoden zur effektiven Gruppierung von Benutzern basierend auf ihrem Nutzungsverhalten.
Welche Methoden werden zur Benutzergruppierung untersucht?
Die Arbeit untersucht verschiedene Clusterverfahren und deren Anwendbarkeit auf den Kontext der Benutzerprofilierung. Es werden sowohl klassische hierarchische und partitionierende Verfahren (z.B. K-means Algorithmus) als auch Fuzzy-Clustering und wahrscheinlichkeitbasierte Verfahren (z.B. EM-Algorithmus) behandelt. Ein besonderer Fokus liegt auf der Berücksichtigung von "Non-obvious user profiles" (NOPs).
Was sind "Non-obvious user profiles" (NOPs)?
NOPs bezeichnen Benutzerprofile, deren Eigenschaften und Muster nicht auf den ersten Blick offensichtlich sind. Die Arbeit entwickelt einen Algorithmus zur Generierung dieser Profile und beschreibt Methoden zur Messung und Verbesserung der Ergebnisse mittels eines Feedback-Mechanismus.
Welche theoretischen Grundlagen werden behandelt?
Die Arbeit legt die theoretischen Grundlagen der Clusteranalyse dar, inklusive der Definition zentraler Begriffe, des Beweises der NP-Härte des optimalen Clusterns und der Klassifizierung verschiedener Clusterverfahren nach verschiedenen Kriterien (hierarchisch, partitionierend, disjunkt, deterministisch usw.). Es werden auch verschiedene Abstandsfunktionen und Distanzmaße (z.B. Mahalanobis-Distanz, Kosinusmaß) für metrische und binäre Daten detailliert beschrieben.
Welche Parameter werden für die Clusterbildung von Benutzern berücksichtigt?
Die Clusterbildung von Benutzern basiert auf verschiedenen Parametern, darunter die auf der Website angebotenen Themen, zeitliche Interessensänderungen der Benutzer, Vertrauenswürdigkeit der Benutzer, Navigationspfade, durchschnittliche Sessiondauer, Anzahl der Sessions und persönliche Daten der Benutzer.
Wie werden die Ergebnisse der Clusteranalyse angewendet?
Die gewonnenen Erkenntnisse aus der Clusteranalyse können in verschiedenen Anwendungsgebieten eingesetzt werden, z.B. zur Personalisierung von Inhalten, zur Verbesserung der Website-Navigation oder zur gezielten Marketingkampagnen.
Welche Algorithmen werden im Detail beschrieben?
Die Arbeit beschreibt detailliert verschiedene klassische Clusteralgorithmen, darunter den hierarchischen agglomerierenden Algorithmus, Single Pass Clustering, einen graphentheoretischen Algorithmus, die Squared Error Methode, den K-means Algorithmus und den Fuzzy-c-means Algorithmus. Der EM-Algorithmus wird ebenfalls behandelt.
Wie wird die Qualität der Cluster bewertet?
Die Arbeit beschreibt Methoden zur Messung der Ergebnisse der Clusteranalyse und betont die Bedeutung eines Feedback-Mechanismus zur Verbesserung der Genauigkeit und Aussagekraft der Cluster. Die Einbindung von Feedback-Informationen in den Prozess wird detailliert erläutert.
Welche Schlüsselbegriffe sind relevant für diese Arbeit?
Wichtige Schlüsselbegriffe sind Clusteranalyse, Web Usage Mining, Benutzerprofile, K-means Algorithmus, Non-obvious user profiles (NOPs), Web-Portale, Information Retrieval, Data Mining, Abstandsfunktionen, Hierarchische Clusterverfahren und Partitionierende Clusterverfahren.
Gibt es eine Zusammenfassung der einzelnen Kapitel?
Ja, die Arbeit enthält eine Zusammenfassung der einzelnen Kapitel, die jeweils die wichtigsten Inhalte und Ergebnisse zusammenfasst. Diese Zusammenfassungen bieten einen Überblick über den Aufbau und die Inhalte der gesamten Arbeit.
- Citation du texte
- Björn Brandt (Auteur), 2006, Clustering und Evaluierung von Benutzerprofilen bei Web-Portalen, Munich, GRIN Verlag, https://www.grin.com/document/56106