In dieser Hausarbeit werde ich verschiedene Arten von Webbrowser sowie unterschiedliche Such-, und Gewichtungsverfahren vorstellen. Verschiedene Methoden um die Relevanz von Dokumenten im Internet zu berechnen und die daraus resultierende Reihenfolge von Ergebnissen werden diskutiert. Ein Schwerpunkt bildet PageRank, das Gewichtungsverfahren welches zum ersten-mal von Google eingeführt
worden ist und heutzutage in anderen Browsern auch in ähnlicherweise zum Einsatz kommt. Am Ende wird eine Google Maske vorgestellt mit der man die Ergebnisse einer Anfrage speichern, und in einem weiteren Schritt diese Ergebnisse graphisch darstellen kann. Im Folgenden wird das Wort Suchmaschine nur dann verwendet wenn es sich
tatsächlich um eine eigentliche Indexbasierte Suchmaschine handelt. Ansonsten wird der Begriff Webbrowser oder Suchdienst benutzt.

Excerpt

Inhaltsverzeichnis

Einleitung

I. Stolpersteine für Suchmaschinen

II. Grundtypen der WWW Suchdienste

II.I Webkataloge

II.II (Indexbasierte) Suchmaschinen

II.III Meta Suchmaschinen

II.IV Payed Listing Suchmaschinen

III. Suchverfahren

IV. Gewichtungsverfahren im Einzelnen

IV.I Relative Worthäufigkeit

IV.II Inverse Dokumentenhäufigkeit

IV.III PageRank

IV.IV Vektorraummodell

IV.V WISERank

IV.VI Cluster Verfahren

IV.VI ExpertRank

V. Google Maske – GoMa

VI. Feldversuche

VI.I Mit Eigenschaften von URL's: Tiefe, Länge, Position des Suchwortes

VI.II Mit HTML spezifisches: Description-, und Titeltag

VI.III Webseiteninhalt: Suchworthäufigkeit

VI.IV PageRank spezifisch: Back Links

Zielsetzung & Themen

Die vorliegende Arbeit untersucht die Funktionsweise verschiedener Suchdienste und deren Gewichtungsverfahren zur Relevanzberechnung von Internetdokumenten. Ziel ist es, ein Verständnis für die algorithmischen Grundlagen zu entwickeln und durch eigene Feldversuche mit einem selbst entwickelten Tool die Auswirkungen spezifischer Parameter auf die Suchergebnis-Reihenfolge empirisch zu analysieren.

Klassifizierung und Funktionsweise von Web-Suchdiensten
Algorithmen zur Relevanzgewichtung (u.a. TF-IDF, PageRank)
Theoretische Grundlagen des Information Retrieval
Empirische Feldversuche zur Ranking-Analyse
Entwicklung und Anwendung der "GoMa" (Google Maske) zur Datenerhebung

Auszug aus dem Buch

IV.III PageRank

PageRank wurde von den Gründern von Google, Larry Page und Sergey Brin, an der Universität von Stanford entwickelt, und basiert auf den Begriff von Prestige in sozialen Netzwerken. Ein soziales Netzwerk kann als Graph dargestellt werden, indem Personen als Knoten und die Beziehungen zwischen ihnen, als Kanten dargestellt werden. Die Dokumente die sehr vielen anderen ähnlich sind, sind wichtiger. Das ist eine sehr demokratische Methode bei der jede Stimme gleich zählt. Leider ist so eine Methode sehr anfällig für Beeinflussungen.

In vielen Arten von sozialen Netzwerken werden nicht alle Beziehungen als gleich wichtig angesehen. So hängt zum Beispiel in einem sozialem Netzwerk von Personen, zwischen denen die Beziehung Freundschaft existiert, das Prestige von einer Person nicht nur von der Anzahl von Freunden ab, die dieser Mensch hat, sondern ist auch davon abhängig wer diese Freunde sind. Dies ist der Kern von PageRank worauf die Suchmaschine Google beruht. Die gleiche Idee kann übrigens auch auf Textzusammenfassung angewandt werden. Der Gedanke ist also nicht nur die Stimmen zu betrachten, sondern wo sie herkommen. Demnach wird die Wichtigkeit von den wählenden Knoten in der Gewichtung ihrer Stimmen mitgezählt. In diesem Fall sind die Knoten Internetseiten und die Kanten sind Links zwischen den Seiten.

Zusammenfassung der Kapitel

Einleitung: Vorstellung der verschiedenen Suchbrowser-Arten und Ankündigung der Analyse von Gewichtungsverfahren sowie der Vorstellung der GoMa-Maske.

I. Stolpersteine für Suchmaschinen: Erläuterung der technischen Herausforderungen bei der Indexierung des Internets, insbesondere des "Invisible Web" und dynamischer Inhalte.

II. Grundtypen der WWW Suchdienste: Unterteilung der Suchdienste in Webkataloge, indexbasierte Suchmaschinen, Metasuchmaschinen und Payed-Listing-Anbieter.

III. Suchverfahren: Beschreibung der Funktionsweise von Webrobot-Systemen und deren Modulen zur automatischen Datenbeschaffung und -pflege.

IV. Gewichtungsverfahren im Einzelnen: Detaillierte Analyse verschiedener Relevanz-Algorithmen wie TF-IDF, PageRank, Vektorraummodell, WISERank, Cluster-Verfahren und ExpertRank.

V. Google Maske – GoMa: Einführung der im Rahmen der Arbeit entwickelten "GoMa"-Oberfläche zur verbesserten Abfrage und Speicherung von Google-Suchdaten.

VI. Feldversuche: Empirische Untersuchung verschiedener Parameter wie Linktiefe, HTML-Tags und Suchwortdichte auf die tatsächliche Platzierung in den Suchergebnissen.

Schlüsselwörter

Suchmaschinen, Webkataloge, PageRank, Information Retrieval, WebRobots, Gewichtungsverfahren, Relevanz, Suchwortdichte, Vektorraummodell, GoMa, Linktiefe, Back Links, Suchverfahren, Algorithmus, Internetbrowser.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Funktionsweise von Internet-Suchmaschinen, insbesondere die verschiedenen Verfahren, nach denen diese die Relevanz von Webseiten berechnen und in einer Ergebnisliste ordnen.

Was sind die zentralen Themenfelder?

Im Fokus stehen die verschiedenen Typen von Suchdiensten, die mathematischen Grundlagen der Gewichtungsalgorithmen sowie die praktische Untersuchung dieser Mechanismen mittels empirischer Feldversuche.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist es, zu verstehen, wie Suchmaschinen technisch funktionieren, und durch den Einsatz eines selbst entwickelten Tools (GoMa) zu testen, welche Faktoren (wie z.B. Linktiefe oder Wortposition) den Rang einer Webseite bei Google tatsächlich beeinflussen.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit kombiniert eine theoretische Literaturanalyse zu Information-Retrieval-Verfahren mit einer quantitativen empirischen Analyse, bei der Suchanfragedaten systematisch ausgewertet werden.

Was wird im Hauptteil behandelt?

Der Hauptteil erörtert die technischen Hürden für Web-Crawler, klassifiziert Suchdienste und erklärt detailliert verschiedene Ranking-Algorithmen, bevor die Ergebnisse der eigenen Feldversuche präsentiert werden.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit ist zentral durch Begriffe wie Suchmaschinen-Algorithmen, PageRank, Relevanzberechnung, WebRobots und empirische Suchergebnis-Analyse geprägt.

Was genau ist die "GoMa" und warum wurde sie entwickelt?

GoMa ("Google Maske") ist ein im Rahmen der Seminararbeit entwickeltes Tool, um erweiterte Suchparameter von Google übersichtlicher zu nutzen und die erhaltenen Suchergebnisse für die nachfolgende empirische Analyse zu speichern.

Warum spielt die "Linktiefe" laut der Analyse eine Rolle?

Die Analyse zeigt, dass Top-Level-Domains häufig die vorderen Plätze belegen, was darauf hindeutet, dass die Linktiefe ein stark gewichteter Parameter bei der Relevanzberechnung ist.

Excerpt out of 24 pages - scroll top

Details

Title: Suchverfahren von Internetbrowsern
College: University of Heidelberg (Wirtschaftsinformatik)
Course: Seminar für Wirtschaftsinformatik
Grade: 1,3
Author: Victor Saiz (Author)
Publication Year: 2006
Pages: 24
Catalog Number: V73796
ISBN (eBook): 9783638780278
Language: German
Tags: Suchverfahren Internetbrowsern Wirtschaftsinformatik Google pagerank Linkpopularität
Product Safety: GRIN Publishing GmbH

Quote paper: Victor Saiz (Author), 2006, Suchverfahren von Internetbrowsern, Munich, GRIN Verlag, https://www.grin.com/document/73796

Suchverfahren von Internetbrowsern