Suchmaschinenvergleich: Google vs. Fireball


Trabajo de Seminario, 2002

20 Páginas, Calificación: 1,5


Extracto


Inhalt

Einleitung

Google. Einführung

Google.1. Datenbasis von Google

Google.2. Retrievalsystem von Google

Google.3. Einfache Suchoberfläche von Google

Goog .4. Erweiterte Suchoberfläche von Google

Google.5. Ergebnisanzeige von Google

Fireball Einführung

Fireball.1. Datenbasis von Fireball

Fireball.2. Retrievalsystem von Fireball

Fireball.3. Einfache Suchoberfläche von Fireball

Fireball.4. Erweiterte Suchoberfläche von Fireball

Fireball.5. Ergebnisanzeige von Fireball

Quellenverzeichnis

Einleitung

Diese Arbeit setzt sich mit der genaueren Funktion von Suchmaschinen auseinander. Aus der großen Vielfalt von Suchmaschinen habe ich hier Google und Fireball ausgewählt. Meine Wahl der Suchmaschinen bezieht sich auf meine persönlich bevorzugte Nutzung von Websuchmaschinen. Google gefällt mir vor allem wegen der übersichtlichen Oberfläche und der überragenden Treffsicherheit der Suchergebnisse. Außerdem nutze ich intensiv die Suche nach pdf-Dokumenten in Google.

Die zweite Wahl, Fireball, finde ich recht komfortabel in Hinsicht auf deutschsprachige Webdokumente. Weiterhin gefällt mir auch die Suche mit Hilfe von Wildcards (Trunkierungszeichen) sehr gut.

Im Einzelnen werden die Suchmaschinen auf ihre Datenbasis, ihr Retrievalsystem und Suchoberfläche hin untersucht.

Der Name Google wurde von Milton Sirotta, dem Neffen des amerikanischen Mathematiker Edward Kasner geprägt. Er wurde abgeleitet von dem Wort "googol" das für eine Zahl steht die eine Eins gefolgt von 100 Nullen bedeutet. Dies soll wohl die Mächtigkeit dieser Suchmaschine andeuten.

Google ist die erste Suchmaschine, die an einer Universität entstanden ist.

Ursprünglich sollte die von S.Brin und L.Page erstellte Suchmaschine nur ein „Proof of Concept“ darstellen. Doch bei einem schlichten Beweis blieb es nicht. Google mauserte sich vom Geheimtipp innerhalb weniger Monate zur populärsten und universellsten Suchmaschine. Im September 1999 wurde Google als offizielle Suchmaschine im Web gestartet. Zu diesem Zeitpunkt gab es laut Google schon etwas 3,5 Mill. Zugriffe pro Tag. Ende 2001 wurden auf allen zugehörigen Servern weltweit 150 Mill. Zugriffe registriert.

Google verwendet zur Zeit etwa 10000 Computer die in 4 Datencentern stehen. Als Betriebssystem wird Linux verwendet.

Google.1. Datenbasis von Google

Abbildung in dieser Leseprobe nicht enthalten

1 Wenn man die URL www.google.de eintippt sieht man eine beeindruckende Zahl.

Wie auf dem obigen Screenshot zu sehen ist gibt Google im Juli 2002 die Anzahl von 2,073,418,204 indexierten Webseiten an.

Kann man dieser Zahl glauben schenken? Chris Sherman, Webguide bei about.com teilt dazu folgende Informationen (die übrigens von Google's Team Mitglied David Cran stammen) mit:

Google verfügt über 602 Mill. im Volltext indexierter Webseiten. Doch wo bleibt die Differenz zur oben genannten Zahl? Ganz einfach. Die Differenz zu obiger Zahl ergibt sich durch die Erfassung von Links, die auf andere Seiten verweisen. Dies bedeutet aber nicht gleichzeitig, dass diese Seiten auch für Benutzer von Google zu erreichen sind. Der Grund dafür ist, dass diese Seiten auf die Links verweisen nicht durchgehend geprüft sind. So kann es vorkommen, dass man zu einer mit Passwort geschützten Seite geleitet wird.

Ähnlich ergeht es dem User von Google auch bei dynamischen Seiten die durch einen Link erfasst wurden, denn der Spider von Google erfasst diese Seite nicht im Volltext.

Fazit: Man sollte sich nicht zu schnell von solchen Zahlen beeindrucken lassen. Im Vordergrund steht immer noch die Qualität der Indexierung und des Retrievalsystems und nicht die Quantität.

Allerdings muss man sagen, dass Google es geschafft hat durch eine gute Suchtechnologie die große Masse in Klasse umzuwandeln.

Google.2. Retrievalsystem von Google

Googles Retrievalsystem beruht auf einem wichtigen Konzept:

Page Rank

Google hat eine spezielle Software namens „ Page Rank“ zum Patent angemeldet. Diese Software sorgt dafür, dass der User von Google möglichst in den ersten Dutzend Treffern die richtigen Informationen findet. Man spricht hier auch von einem „demokratischen Ranking“.

Man kann die Linkstruktur des Internets auch als einen gerichteten Graphen sehen. Dieser Graph enthält wertvolle, allgemein zugängliche und objektive Informationen. Der Page Rank verwandelt diese Informationen in eine Zahl um, die dann für die Sortierung der Suchergebnisse benutzt wird.

Die Idee des Page Rank basiert auf der Zitat-Analyse wissenschaftlicher Literatur. Hier wird beobachtet wie oft die Arbeit eines Wissenschaftlers von anderen zitiert wurde. Doch leider ist das Web viel komplexer und unstrukturierter, so dass eine Übertragung der Zitatanalyse ins Web nicht ohne weiteres machbar ist. Bei dem Page Rank Verfahren darf man nicht davon ausgehen, dass es den Rank von „Seiten“ ermittelt. Der Name Page führt auf seinen Erfinder L.Page zurück. Wichtigster Ansatzpunkt für das Konzept von Page ist die Anzahl externer Links die auf eine Webseite verweisen. Dabei wird auch überprüft ob die externe, verweisende Seite ebenfalls wichtig ist, indem wiederum überprüft wird wie viele externe Links auf diese Seite verweisen. Weiterhin wird geprüft, ob die verweisende Seite Content besitzt der relevant zur gesuchten Webseite ist.

Hierbei wird großes Augenmerk auf den Text im Verweis gelegt. Die verweisenden Links auf eine Website, die über einen Suchterm berichten, sollten auch im Linktext der verweisenden Seite den Suchterm enthalten. Dabei werden noch folgende Regeln von Google beachtet:

Vorkommen des Suchterms im Seitentitel, description-tag oder im Anfang des Textes

Je näher die Suchterme im Text beieinander liegen, desto höher werden Sie von Google eingestuft

Die Seite wird nur registriert wenn alle Suchterme im Titel oder in den verweisenden Links zu finden sind Vorkommen des Suchterms in der URL

Je größer die Schrift, desto höher die Bewertung durch Google Fettschrift wird höher bewertet als normale Schrift

Um den Algorithmus des Page Rank zu verdeutlichen, wird hier die Vorgehensweise in einfachen Schritten erläutert:

1. Jede Seite wird zuerst mit einem Startwert belegt. Der Startwert kann im Prinzip beliebig gewählt werden, da der Algorithmus in jedem Fall zum Ziel führt. Allerdings hat der gewählte Startwert einen Einfluss darauf, wie schnell man zum Ziel kommt. Man sieht den Page Rank auch als Wahrscheinlichkeitsmaß und legt somit als Startwert für die Seiten folgendes fest: 1 / Anzahl der Seiten
2. Aus der Gewichtung der Seiten werden nun die Gewichte der ausgehenden Links bestimmt: Gewicht der Seite / Anzahl der ausgehenden Links
3. Aus den Gewichten der eingehenden Links (Backlinks) werden nun die
Seitengewichte durch Summenbildung neu berechnet: Summe(Linkgewichte)
4. Dieser Ablauf ab dem Punkt 2 wird jetzt wiederholt, bis die Seiten- und Linkgewichtungen eine hinreichende Annäherung erreicht haben.

Abbildung in dieser Leseprobe nicht enthalten

Mathematisch lässt sich der Page Rank in folgender Formel ausdrücken:

Abbildung in dieser Leseprobe nicht enthalten

Zur Erläuterung :

Abbildung in dieser Leseprobe nicht enthalten

Google.3. Einfache Suchoberfläche von Google

Beim Aufruf der Seite Google erfreut sich das Auge an einer angenehm schlichten Oberfläche ohne jeden Ansatz von Kommerz. Das einfache Design der Webseite ist gerade für Weblaien angenehm weil dadurch keine Überforderung auftritt. Man findet nur einen Suchschlitz und zwei Buttons. Wird mehr als ein Suchbegriff eingegeben so werden diese bei Google grundsätzlich mit einem logischen „und“ verknüpft. Das bedeutet dass alle Suchterme im Suchergebnis vorhanden sein müssen.

Neben dem Button „Google-Suche“ findet man auch noch einen Button „Auf gut

Glück!“. Diese Funktion soll die Treffsicherheit von Google demonstrieren. Sinn ist es, bei Eingabe von Suchtermen direkt auf die gesuchte Webseite zu gehen. Gibt man z.B. die beiden Begriffe „BASF“ und „Deutschland“ ein, so öffnet sich nach Betätigung des „Auf gut Glück!“ Buttons direkt die Webseite von BASF Deutschland.

Zudem sind noch folgende Funktionen in der einfachen Suche möglich:

Abbildung in dieser Leseprobe nicht enthalten

Google weißt noch eine Besonderheit auf. Im Gegensatz zu vielen anderen Suchmaschinen bietet Google bei der einfachen Suche kein logisches „oder“ an.

Dies bedeutet dass immer alle Suchterme vorhanden sein müssen. Inoffiziell ist aber der Operator „or“ für die Odersuche einsetzbar. Ebenso ist keine Trunkierung mit Jokerzeichen möglich. Stoppwörter werden in der Regel von Google rausgefiltert. Wenn man vor den Suchterm jedoch ein „+“ setzt oder eine Phrase eingibt, so werden auch Stoppwörter beachtet.

Weitere Funktionen in der einfachen Suche von Google werden nachfolgend noch aufgelistet und kurz beschrieben:

Abbildung in dieser Leseprobe nicht enthalten2

[...]


1 www.google.de / 23.07.2002

2 www.google.de / 23.07.02

Final del extracto de 20 páginas

Detalles

Título
Suchmaschinenvergleich: Google vs. Fireball
Universidad
Cologne University of Applied Sciences  (Fakultät für Informations- und Kommunikationswissenschaft)
Curso
Information Retrieval
Calificación
1,5
Autor
Año
2002
Páginas
20
No. de catálogo
V9003
ISBN (Ebook)
9783638158206
Tamaño de fichero
1752 KB
Idioma
Alemán
Palabras clave
Google, Fireball, Alltheweb, Fast, Suchmaschine
Citar trabajo
Marco Güldenring (Autor), 2002, Suchmaschinenvergleich: Google vs. Fireball, Múnich, GRIN Verlag, https://www.grin.com/document/9003

Comentarios

  • No hay comentarios todavía.
Leer eBook
Título: Suchmaschinenvergleich: Google vs. Fireball



Cargar textos

Sus trabajos académicos / tesis:

- Publicación como eBook y libro impreso
- Honorarios altos para las ventas
- Totalmente gratuito y con ISBN
- Le llevará solo 5 minutos
- Cada trabajo encuentra lectores

Así es como funciona