In dieser Hausarbeit werde ich verschiedene Arten von Webbrowser sowie unterschiedliche Such-, und Gewichtungsverfahren vorstellen. Verschiedene Methoden um die Relevanz von Dokumenten im Internet zu berechnen und die daraus resultierende Reihenfolge von Ergebnissen werden diskutiert. Ein Schwerpunkt bildet PageRank, das Gewichtungsverfahren welches zum ersten-mal von Google eingeführt
worden ist und heutzutage in anderen Browsern auch in ähnlicherweise zum Einsatz kommt. Am Ende wird eine Google Maske vorgestellt mit der man die Ergebnisse einer Anfrage speichern, und in einem weiteren Schritt diese Ergebnisse graphisch darstellen kann. Im Folgenden wird das Wort Suchmaschine nur dann verwendet wenn es sich
tatsächlich um eine eigentliche Indexbasierte Suchmaschine handelt. Ansonsten wird der Begriff Webbrowser oder Suchdienst benutzt.
Inhaltsverzeichnis
Einleitung
I. Stolpersteine für Suchmaschinen
II. Grundtypen der WWW Suchdienste
II.I Webkataloge
II.II (Indexbasierte) Suchmaschinen
II.III Meta Suchmaschinen
II.IV Payed Listing Suchmaschinen
III. Suchverfahren
IV. Gewichtungsverfahren im Einzelnen
IV.I Relative Worthäufigkeit
IV.II Inverse Dokumentenhäufigkeit
IV.III PageRank
IV.IV Vektorraummodell
IV.V WISERank
IV.VI Cluster Verfahren
IV.VI ExpertRank
V. Google Maske – GoMa
VI. Feldversuche
VI.I Mit Eigenschaften von URL's: Tiefe, Länge, Position des Suchwortes
VI.II Mit HTML spezifisches: Description-, und Titeltag
VI.III Webseiteninhalt: Suchworthäufigkeit
VI.IV PageRank spezifisch: Back Links
Zielsetzung & Themen
Die vorliegende Arbeit untersucht die Funktionsweise verschiedener Suchdienste und deren Gewichtungsverfahren zur Relevanzberechnung von Internetdokumenten. Ziel ist es, ein Verständnis für die algorithmischen Grundlagen zu entwickeln und durch eigene Feldversuche mit einem selbst entwickelten Tool die Auswirkungen spezifischer Parameter auf die Suchergebnis-Reihenfolge empirisch zu analysieren.
- Klassifizierung und Funktionsweise von Web-Suchdiensten
- Algorithmen zur Relevanzgewichtung (u.a. TF-IDF, PageRank)
- Theoretische Grundlagen des Information Retrieval
- Empirische Feldversuche zur Ranking-Analyse
- Entwicklung und Anwendung der "GoMa" (Google Maske) zur Datenerhebung
Auszug aus dem Buch
IV.III PageRank
PageRank wurde von den Gründern von Google, Larry Page und Sergey Brin, an der Universität von Stanford entwickelt, und basiert auf den Begriff von Prestige in sozialen Netzwerken. Ein soziales Netzwerk kann als Graph dargestellt werden, indem Personen als Knoten und die Beziehungen zwischen ihnen, als Kanten dargestellt werden. Die Dokumente die sehr vielen anderen ähnlich sind, sind wichtiger. Das ist eine sehr demokratische Methode bei der jede Stimme gleich zählt. Leider ist so eine Methode sehr anfällig für Beeinflussungen.
In vielen Arten von sozialen Netzwerken werden nicht alle Beziehungen als gleich wichtig angesehen. So hängt zum Beispiel in einem sozialem Netzwerk von Personen, zwischen denen die Beziehung Freundschaft existiert, das Prestige von einer Person nicht nur von der Anzahl von Freunden ab, die dieser Mensch hat, sondern ist auch davon abhängig wer diese Freunde sind. Dies ist der Kern von PageRank worauf die Suchmaschine Google beruht. Die gleiche Idee kann übrigens auch auf Textzusammenfassung angewandt werden. Der Gedanke ist also nicht nur die Stimmen zu betrachten, sondern wo sie herkommen. Demnach wird die Wichtigkeit von den wählenden Knoten in der Gewichtung ihrer Stimmen mitgezählt. In diesem Fall sind die Knoten Internetseiten und die Kanten sind Links zwischen den Seiten.
Zusammenfassung der Kapitel
Einleitung: Vorstellung der verschiedenen Suchbrowser-Arten und Ankündigung der Analyse von Gewichtungsverfahren sowie der Vorstellung der GoMa-Maske.
I. Stolpersteine für Suchmaschinen: Erläuterung der technischen Herausforderungen bei der Indexierung des Internets, insbesondere des "Invisible Web" und dynamischer Inhalte.
II. Grundtypen der WWW Suchdienste: Unterteilung der Suchdienste in Webkataloge, indexbasierte Suchmaschinen, Metasuchmaschinen und Payed-Listing-Anbieter.
III. Suchverfahren: Beschreibung der Funktionsweise von Webrobot-Systemen und deren Modulen zur automatischen Datenbeschaffung und -pflege.
IV. Gewichtungsverfahren im Einzelnen: Detaillierte Analyse verschiedener Relevanz-Algorithmen wie TF-IDF, PageRank, Vektorraummodell, WISERank, Cluster-Verfahren und ExpertRank.
V. Google Maske – GoMa: Einführung der im Rahmen der Arbeit entwickelten "GoMa"-Oberfläche zur verbesserten Abfrage und Speicherung von Google-Suchdaten.
VI. Feldversuche: Empirische Untersuchung verschiedener Parameter wie Linktiefe, HTML-Tags und Suchwortdichte auf die tatsächliche Platzierung in den Suchergebnissen.
Schlüsselwörter
Suchmaschinen, Webkataloge, PageRank, Information Retrieval, WebRobots, Gewichtungsverfahren, Relevanz, Suchwortdichte, Vektorraummodell, GoMa, Linktiefe, Back Links, Suchverfahren, Algorithmus, Internetbrowser.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt die Funktionsweise von Internet-Suchmaschinen, insbesondere die verschiedenen Verfahren, nach denen diese die Relevanz von Webseiten berechnen und in einer Ergebnisliste ordnen.
Was sind die zentralen Themenfelder?
Im Fokus stehen die verschiedenen Typen von Suchdiensten, die mathematischen Grundlagen der Gewichtungsalgorithmen sowie die praktische Untersuchung dieser Mechanismen mittels empirischer Feldversuche.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist es, zu verstehen, wie Suchmaschinen technisch funktionieren, und durch den Einsatz eines selbst entwickelten Tools (GoMa) zu testen, welche Faktoren (wie z.B. Linktiefe oder Wortposition) den Rang einer Webseite bei Google tatsächlich beeinflussen.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit kombiniert eine theoretische Literaturanalyse zu Information-Retrieval-Verfahren mit einer quantitativen empirischen Analyse, bei der Suchanfragedaten systematisch ausgewertet werden.
Was wird im Hauptteil behandelt?
Der Hauptteil erörtert die technischen Hürden für Web-Crawler, klassifiziert Suchdienste und erklärt detailliert verschiedene Ranking-Algorithmen, bevor die Ergebnisse der eigenen Feldversuche präsentiert werden.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit ist zentral durch Begriffe wie Suchmaschinen-Algorithmen, PageRank, Relevanzberechnung, WebRobots und empirische Suchergebnis-Analyse geprägt.
Was genau ist die "GoMa" und warum wurde sie entwickelt?
GoMa ("Google Maske") ist ein im Rahmen der Seminararbeit entwickeltes Tool, um erweiterte Suchparameter von Google übersichtlicher zu nutzen und die erhaltenen Suchergebnisse für die nachfolgende empirische Analyse zu speichern.
Warum spielt die "Linktiefe" laut der Analyse eine Rolle?
Die Analyse zeigt, dass Top-Level-Domains häufig die vorderen Plätze belegen, was darauf hindeutet, dass die Linktiefe ein stark gewichteter Parameter bei der Relevanzberechnung ist.
- Quote paper
- Victor Saiz (Author), 2006, Suchverfahren von Internetbrowsern, Munich, GRIN Verlag, https://www.grin.com/document/73796