Die Wandlung vom klassischen Web 1.0 zum Web 2.0 bildet den Rahmen dieser Ausarbeitung. Im klassischen Web 1.0 lag der Fokus auf der einfachen Nutzung von veröffentlichten Inhalten. Die Generierung und Bereitstellung von Inhalten war nur relativ wenigen Internetnutzern vorbehalten. Ein Grund war unter anderem die hohen Kosten. Das Web 2.0 lässt sich durch veränderte Technologien und Kosten als Kernpunkte charakterisieren. Daraus hat sich ein enorm gestiegener Anteil an Inhalten, die von Nutzern generiert wurden, ergeben. Während 1998 noch ungefähr 3,7 Millionen Websites existierten, sind es 2008 schon ungefähr 165 Millionen. In dieser Menge von Websites agieren Suchmaschinen. Ein Beispiel dafür ist Google. Mit einem Marktanteil von ca. 90% ist Google die größte Suchmaschine Deutschlands. 1998 beantwortete Google weltweit noch 10.000 und 2007 schon 200 Millionen Suchanfragen pro Tag. Nutzer versuchen ihre generierten Inhalte durch verschiedene Techniken der Suchmaschinen-Optimierung optimal zu positionieren. Suchmaschinen werden dabei oft durch so genannten Web Spam manipuliert. Insgesamt entstehen Vertrauens- und Qualitätsprobleme im Web. Aus diesen Betrachtungen ergeben sich neue Anforderungen an Suchmaschinen bezüglich der Bewertung von Webinhalten. Nutzer sollen zu einer Suchanfrage nur passende und zusätzlich vertrauensvolle Websites als Suchergebnis geliefert bekommen. Ziel dieser Arbeit ist die Darstellung des TrustRank-Algorithmus zur Identifikation von vertrauensvollen Websites.
Kapitel 2 behandelt zunächst die wesentlichen Grundlagen zum Verständnis der Thematik. Es wird der Zusammenhang zwischen Suchmaschine, Ranking, formalem Web Modell und Web Spam dargestellt. In Kapitel 3 folgt die Herleitung der Komponenten des TrustRank-Algorithmus. Die Ausführungen werden dabei zusätzlich an einem Beispiel verdeutlicht. Abschließend enthält Kapitel 4 eine Bewertung des TrustRank-Algorithmus.
[...]
Inhaltsverzeichnis
- 1. EINLEITUNG
- 2. GRUNDLAGEN
- 2.1 Das Web als Modell
- 2.2 Suchmaschinen
- 2.2.1 Webcrawler-System (WCS)
- 2.2.2 Information Retrieval System (IRS)
- 2.2.3 Query-Processor (QP)
- 2.3 Page Rank
- 2.4 Web Spam
- 3. TRUSTRANK
- 3.1 Bewertung von Vertrauen
- 3.1.1 Orakel
- 3.1.2 Trust-Funktion
- 3.2 Auswahl geeigneter Ausgangsseiten
- 3.3 Berechnung von Vertrauen
- 3.4 Der Trust Rank Algorithmus
- 4. FAZIT
Zielsetzung und Themenschwerpunkte
Diese Seminararbeit befasst sich mit dem TrustRank-Algorithmus, einem Verfahren zur Verbesserung der Relevanzbestimmung von Webseiten in Suchmaschinen. Ziel ist es, die Funktionsweise des Algorithmus zu erläutern und seine Vorteile gegenüber herkömmlichen Methoden, wie dem PageRank, aufzuzeigen.
- Das Web als Modell und die Architektur von Suchmaschinen
- Der PageRank Algorithmus und seine Grenzen
- Die Funktionsweise des TrustRank Algorithmus
- Bewertung von Vertrauen und die Auswahl geeigneter Ausgangsseiten
- Berechnung des TrustRanks
Zusammenfassung der Kapitel
Kapitel 1 bildet eine Einleitung in die Thematik. Kapitel 2 beschreibt die Grundlagen: das Web als Modell, die Architektur von Suchmaschinen (Webcrawler-System, Information Retrieval System, Query-Processor) und den PageRank Algorithmus sowie das Problem von Webspam. Kapitel 3 fokussiert sich auf den TrustRank Algorithmus, beginnend mit der Bewertung von Vertrauen über die Auswahl geeigneter Ausgangsseiten bis hin zur Berechnung des TrustRanks selbst und der Beschreibung des Algorithmus.
Schlüsselwörter
TrustRank, PageRank, Suchmaschinen, Webcrawler, Information Retrieval, Web Spam, Bewertung von Webseiten, Vertrauenswürdigkeit, Algorithmus.
- Arbeit zitieren
- Raoul Privenau (Autor:in), 2008, TrustRank - eine Einführung, München, GRIN Verlag, https://www.grin.com/document/120332