Grin logo
de en es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › Informatik - Internet, neue Technologien

TrustRank - eine Einführung

Titel: TrustRank - eine Einführung

Seminararbeit , 2008 , 30 Seiten , Note: 1,0

Autor:in: Raoul Privenau (Autor:in)

Informatik - Internet, neue Technologien
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Die Wandlung vom klassischen Web 1.0 zum Web 2.0 bildet den Rahmen dieser Ausarbeitung. Im klassischen Web 1.0 lag der Fokus auf der einfachen Nutzung von veröffentlichten Inhalten. Die Generierung und Bereitstellung von Inhalten war nur relativ wenigen Internetnutzern vorbehalten. Ein Grund war unter anderem die hohen Kosten. Das Web 2.0 lässt sich durch veränderte Technologien und Kosten als Kernpunkte charakterisieren. Daraus hat sich ein enorm gestiegener Anteil an Inhalten, die von Nutzern generiert wurden, ergeben. Während 1998 noch ungefähr 3,7 Millionen Websites existierten, sind es 2008 schon ungefähr 165 Millionen. In dieser Menge von Websites agieren Suchmaschinen. Ein Beispiel dafür ist Google. Mit einem Marktanteil von ca. 90% ist Google die größte Suchmaschine Deutschlands. 1998 beantwortete Google weltweit noch 10.000 und 2007 schon 200 Millionen Suchanfragen pro Tag. Nutzer versuchen ihre generierten Inhalte durch verschiedene Techniken der Suchmaschinen-Optimierung optimal zu positionieren. Suchmaschinen werden dabei oft durch so genannten Web Spam manipuliert. Insgesamt entstehen Vertrauens- und Qualitätsprobleme im Web. Aus diesen Betrachtungen ergeben sich neue Anforderungen an Suchmaschinen bezüglich der Bewertung von Webinhalten. Nutzer sollen zu einer Suchanfrage nur passende und zusätzlich vertrauensvolle Websites als Suchergebnis geliefert bekommen. Ziel dieser Arbeit ist die Darstellung des TrustRank-Algorithmus zur Identifikation von vertrauensvollen Websites.
Kapitel 2 behandelt zunächst die wesentlichen Grundlagen zum Verständnis der Thematik. Es wird der Zusammenhang zwischen Suchmaschine, Ranking, formalem Web Modell und Web Spam dargestellt. In Kapitel 3 folgt die Herleitung der Komponenten des TrustRank-Algorithmus. Die Ausführungen werden dabei zusätzlich an einem Beispiel verdeutlicht. Abschließend enthält Kapitel 4 eine Bewertung des TrustRank-Algorithmus.

[...]

Leseprobe


Inhaltsverzeichnis

1. EINLEITUNG

2. GRUNDLAGEN

2.1 Das Web als Modell

2.2 Suchmaschinen

2.2.1 Webcrawler-System (WCS)

2.2.2 Information Retrieval System (IRS)

2.2.3 Query-Processor (QP)

2.3 Page Rank

2.4 Web Spam

3. TRUSTRANK

3.1 Bewertung von Vertrauen

3.1.1 Orakel

3.1.2 Trust-Funktion

3.2 Auswahl geeigneter Ausgangsseiten

3.3 Berechnung von Vertrauen

3.4 Der TrustRank Algorithmus

4. FAZIT

Zielsetzung & Themen

Die Arbeit verfolgt das Ziel, den TrustRank-Algorithmus als Methode zur Identifizierung vertrauenswürdiger Webinhalte darzustellen und von herkömmlichen Ranking-Verfahren abzugrenzen. Dabei wird untersucht, wie durch Expertenbewertungen und gezielte Algorithmen die Qualität von Suchergebnissen verbessert und Web Spam effektiv minimiert werden kann.

  • Grundlagen des Web-Modells und der Funktionsweise von Suchmaschinen
  • Mechanismen des PageRank-Algorithmus und dessen Verwundbarkeit durch Web Spam
  • Methodik der vertrauensbasierten Bewertung von Webseiten (Orakel- und Trust-Funktionen)
  • Mathematische Herleitung und Implementierung des TrustRank-Algorithmus
  • Vergleichende Analyse der Effektivität von PageRank gegenüber TrustRank

Auszug aus dem Buch

3.4 Der TrustRank Algorithmus

Aus den bisherigen Erläuterungen lässt sich der konkrete TrustRank Algorithmus angeben. Der Algorithmus besteht aus fünf Schritten und ist in Abbildung 3-2 dargestellt.

In einem ersten Schritt wird die Vorauswahl durchgeführt. Dazu werden alle Seiten nach ihrer Eignung als Ausgangsseiten bewertet. Als Ergebnis enthält der Vektor s die Seitenbewertungen. Nach den absteigenden s-Werten werden in Schritt zwei alle Seiten sortiert und in Vektor o festgehalten. Nun steht fest, welche Seiten sich für die Prüfung durch einen Experten eignen. Die Anzahl der Experteneinsätze ist allerdings auf L begrenzt. Die Expertenbewertungen werden daher für die am besten geeigneten Seiten durchgeführt.

Der Vektor v nimmt die Resultate dieser Bewertungen entgegen. Nach der Initialisierung enthält v für jede Seite zunächst den Wert null. Bewertet ein Experte eine Seite als vertrauensvoll, so erhält die entsprechende Seite in v den Wert eins. Im Anschluss daran wird in Schritt vier der Vektor v normalisiert. Schritt fünf beinhaltet letztendlich die iterative Berechnung der Trust-Werte. Der Vektor t* wird zunächst mit den Werten aus v initialisiert. Anschließend beginnt die Berechnung der Trust-Werte in M Iterationen. Die Dämpfung der Weitergabe von Vertrauen wird durch den Dämpfungsfaktor d realisiert. Die Verteilung von Vertrauen findet über die Multiplikation der Übergangsmatrix T und dem Vektor der Trust-Werte t* statt.

Zusammenfassung der Kapitel

1. EINLEITUNG: Die Einleitung beleuchtet die Entwicklung des Internets vom Web 1.0 zum Web 2.0 und die damit einhergehenden Herausforderungen durch Web Spam bei der Qualitätssicherung von Suchergebnissen.

2. GRUNDLAGEN: Dieses Kapitel definiert das Web als mathematischen Graphen und erläutert die Funktionsweise von Suchmaschinen, PageRank sowie die verschiedenen Formen und Probleme von Web Spam.

3. TRUSTRANK: Hier wird der TrustRank-Algorithmus detailliert eingeführt, inklusive Ansätzen zur Vertrauensbewertung mittels Experten, der Auswahl von Startknoten und der mathematischen Modellierung.

4. FAZIT: Das Fazit vergleicht die Effizienz von PageRank und TrustRank anhand von Gütemaßen und diskutiert die Praxisrelevanz sowie die Grenzen des Algorithmus.

Schlüsselwörter

TrustRank, PageRank, Web Spam, Suchmaschinen, Internet, Informationssuche, Vertrauensbewertung, Web-Graph, Expertenbewertung, Algorithmus, Linkanalyse, Ranking, Web-Daten, Suchmaschinenoptimierung, Qualitätssicherung.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit untersucht den TrustRank-Algorithmus, der darauf abzielt, die Vertrauenswürdigkeit von Webseiten systematisch zu bewerten, um Suchergebnisse von Web Spam zu bereinigen.

Was sind die zentralen Themenfelder?

Die zentralen Themen umfassen die mathematische Modellierung des Webs, die Funktionsweise moderner Suchmaschinenkomponenten, die Dynamik von PageRank sowie Ansätze zur manuellen und automatischen Spam-Identifizierung.

Welches Ziel verfolgt die Arbeit?

Das primäre Ziel ist die Herleitung und Darstellung des TrustRank-Algorithmus als Lösungsweg, um vertrauensvolle Webseiten präziser zu identifizieren und die Qualität von Suchergebnissen zu steigern.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine theoretische Analyse auf Basis von Web-Graphen und Matrizenrechnung angewendet, ergänzt durch beispielhafte Berechnungen und einen vergleichenden Diskurs zu Gütemaßen.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretischen Grundlagen des Suchprozesses, die Mechanismen der Linkanalyse (PageRank) und die spezifische Methodik zur Implementierung des TrustRank-Algorithmus.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird primär durch Begriffe wie TrustRank, Web Spam, Linkanalyse, Suchmaschinen und Vertrauensbewertung charakterisiert.

Warum reicht der PageRank-Algorithmus allein nicht aus?

Der PageRank-Algorithmus bewertet lediglich die Popularität durch eingehende Links, kann jedoch nicht zwischen einer qualitativ hochwertigen Webseite und einer gezielt manipulierten Spam-Seite unterscheiden.

Welche Rolle spielen Experten bei TrustRank?

Experten nehmen in der "Orakel-Funktion" eine manuelle Vorauswahl vertrauensvoller Webseiten vor, die dann als Ankerpunkt für die Verteilung von Vertrauenswerten im gesamten Netzwerk dienen.

Wie beeinflusst der Dämpfungsfaktor die Berechnung?

Der Dämpfungsfaktor verhindert, dass Vertrauen unbegrenzt weitergegeben wird, und sorgt dafür, dass die berechneten Werte stabil bleiben und sich in einem bestimmten Intervall bewegen.

Kann TrustRank Web Spam vollständig eliminieren?

Nein, TrustRank ist ein hilfreicher Ansatz zur Reduzierung von Spam, jedoch bleibt die Qualität der Vorauswahl der Ausgangsseiten und die dynamische Natur des Webs ein komplexes, theoretisch und praktisch schwieriges Feld.

Ende der Leseprobe aus 30 Seiten  - nach oben

Details

Titel
TrustRank - eine Einführung
Hochschule
Martin-Luther-Universität Halle-Wittenberg  (Institut für Informatik)
Veranstaltung
Seminar über Datenbanken, XML und Suchmaschinen
Note
1,0
Autor
Raoul Privenau (Autor:in)
Erscheinungsjahr
2008
Seiten
30
Katalognummer
V120332
ISBN (eBook)
9783640241491
ISBN (Buch)
9783640245208
Sprache
Deutsch
Schlagworte
TrustRank Seminar Datenbanken Suchmaschinen
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Raoul Privenau (Autor:in), 2008, TrustRank - eine Einführung, München, GRIN Verlag, https://www.grin.com/document/120332
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  30  Seiten
Grin logo
  • Grin.com
  • Versand
  • Kontakt
  • Datenschutz
  • AGB
  • Impressum