Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich


Hausarbeit, 2002
27 Seiten, Note: 1

Leseprobe

Gliederung

1. Einleitung

2. Daten basis
2.1 Google
2.2 AllTheWeb
2.3 Fazit

3. Retrievalsystem
3.1 Google
3.2 AllTheWeb
3.3 Fazit

4. Benutzeroberflache
4.1 Google
4.2 AllTheWeb
4.3 Fazit

5. Zusammenfassung

Glossar

Quellenverzeichnis

1. Einleitung

Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularitat und damit an GroGe zugenommen. Mittlerweile schatzt man die GroGe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Tag- lich kommen Millionen Seiten hinzu.

Um in dieser Menge an Informationen uberhaupt etwas Gewunschtes finden zu kon- nen, sind Suchmaschinen immer wichtiger geworden. Zwar konnen selbst alle Suchmaschinen zusammen genommen nicht einmal annahernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlasslich fur jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrie- ren, uber die groGte Datenbasis aller Suchmaschinenanbieter zu verfugen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search & Transfer (FAST).

Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberflache dieser zwei Suchmaschinen. Es sollen ihre speziellen Starken und Schwachen her- ausgestellt werden.

Da vor allem Google viele verschiedene Suchmoglichkeiten anbietet, von denen manche nur fur die USA verfugbar sind, wird hier nicht auf alle Funktionen eingegan- gen.

2. Datenbasis

2.1 Google

Google bietet nach eigener Aussage Zugriff auf uber 3 Milliarden Web Dokumente verschiedenster Typen. Die Datenbasis der Google Web Search umfasst uber 2 Mil­liarden Dokumente (Google nennt auf seiner Homepage die Zahl 2.073.418.204).

Neben HTML-Dateien bietet Google auch die Suche nach anderen Dateiarten an. Momentan erfasst sind hier ca. 35 Millionen Dokumente vor allem in den Formaten Adobe Portable Document Format (pdf), Adobe PostScript (ps), MacWrite (mw), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Rich Text Format (rtf), Text (ans, txt), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku) und Lotus WordPro (lwp).

3 Milliarden Webseiten werden von Google sogar taglich indexiert.

Allerdings sind erst 1,5 Mrd. der 2 Mrd. Datensatze voll indexiert und bei diesen auch immer nur ungefahr die ersten 100 KB des Textes. Interessant ist, dass bei Google nicht nur Text, Titel und URL einer Webseite die Dokumentationseinheit darstellen, sondern auch die Ankertexte der Links, die auf diese Webseite verweisen. Dies ge- schieht zum einen, weil Ankertexte genauere Beschreibungen eines Dokuments ent- halten konnen, als das Dokument selbst. Zum anderen konnen bestimmte Doku- menttypen wie z. B. Bilder ja gar nicht uber Text indexiert werden.

Das Indexieren selbst geschieht mit Hilfe von Crawlern, bei Google "Googlebot" ge- nannt. Der Googlebot aktualisiert den Index ca. ein Mal im Monat.

Bei 500 Millionen Dokumenten in Googles Datenbasis wurde jedoch noch nicht der Text indexiert, sondern lediglich die URL und der Ankertext des Links, der zu der betreffenden Webseite fuhrt, so dass diese Dokumente kaum von der Suchmaschine gefunden werden. Meistens handelt es sich hierbei um veraltete oder ungenaue Links, um Dubletten von vorhandenen Seiten oder um geschutzte Webseiten. Zu er- kennen sind sie daran, dass sie im Gegensatz zu den anderen Suchergebnissen kein Extract und keine Angabe der SeitengroGe enthalten und auch keine archivierte Version der Seite vorliegt.

(aus: http://www.searchengineshowdown.com/features/google/dbanalysis.shtml)

Fur den Fall, dass eine indexierte Webseite nicht mehr verfugbar ist, bietet Google die Moglichkeit, mit einem Klick auf den "Cached"-Link ("Im Archiv" bei google.de, siehe auch Abb. 8) die Seite so anzuzeigen, wie sie indexiert wurde.

Google bietet auGerdem eine Suche nach Bildern an. Hierin erhalt der User Zugriff auf uber 330 Millionen Bilder in den Formaten JPG und GIF.

Hinter dem Bereich "Groups" verbirgt sich ein Usenet-Archiv. Es enthalt alle News- groups-Beitrage bis zuruck ins Jahr 1981 mit insgesamt uber 700 Millionen Nachrich- ten.

Bei einem Klick auf die Rubrik "Verzeichnis" gelangt man zum Katalog des "Open Directory Project" (ODP), in dem Webseiten in Kategorien eingeordnet sind. Diesen Webkatalog kann man nun mit der Suchmaschinentechnik Googles durchsuchen.

Die Suchergebnisse allerdings sind im Gegensatz zu der Suche auf der Seite des ODP nach dem Google-Verfahren des PageRank (siehe Seite 11) geordnet.

2.2 AllTheWeb

Erst vor kurzem gab FAST bekannt, uber die groGte Datenbasis der Suchmaschi- nenanbieter zu verfugen.

Nach eigener Angabe befinden sich 2.112.188.990 Dokumente im Index, womit AllTheWeb knapp vor Google liegen wurde.

Allerdings werden diese Angaben durchaus auch angezweifelt, weil eventuell auch gesperrte Seiten, Dubletten und nicht mehr existierende Seiten mitgezahlt werden und manche Seiten sogar doppelt indexiert wurden (Schallhorn, 2001)

Seit Mai 2002 sind bei AllTheWeb neben den obligatorischen HTML-Dokumenten auch einige Millionen PDF-Dokumente indexiert, die sich auch einzeln suchen las­sen. Der Vorteil gegenuber Google besteht darin, dass AllTheWeb den kompletten Text der Dokumente (sowohl HTML als auch PDF) indexiert und nicht nur 100 KB. Daruber hinaus gibt es bei AllTheWeb ein News-Archiv mit Neuigkeiten aus uber 3000 Onlinequellen sowie eine Bild- und Videodatenbank mit Bildern in den Forma- ten JPG, GIF und BMP, und Videos in den Formaten AVI (auch DivX), MPEG, Real und QuickTime. AuGerdem besteht die Moglichkeit nach MP3-Dateien und FTP-Files zu suchen.

Im August 2001 waren 70 Mio. Bild- und Videodateien, 2 Mio. Mp3s und 150 Mio. FTP-Eintrage in AllTheWebs Index verzeichnet. Das Indexieren geschieht bei AllThe­Web mittels des "FAST Web Crawlers”. Die Aktualisierung des Index wird nach Angaben AllTheWebs alle 7-11 Tage vorgenommen, so dass AllTheWeb aktueller als Google ist. Allerdings gibt es nicht wie bei Google die Moglichkeit, sich eine gecachete Kopie einer Webseite anzeigen zu lassen.

2.3 Fazit

Ein Vergleich der GroGe der beiden Datenbasen ist quasi unmoglich. Die Dokumen- tenzahlen, die beide Suchmaschinen auf ihrer Homepage angeben, liegen sehr nah beieinander, wenn auch AllTheWeb angibt, mehr Seiten als Google indexiert zu ha- ben. Wie viele Seiten jedoch gar nicht mehr existieren oder doppelt gezahlt wurden ist naturlich nicht nachprufbar, so dass lediglich feststeht, dass sowohl Google als auch AllTheWeb uber eine sehr groGe Datenbasis verfugen.

Die Vorteile von Google gegenuber AllTheWeb sind die groGe Menge an suchbaren Dateiformaten sowie die archivierten Versionen von Webseiten.

Sehr nutzlich ist, dass Google auch die Ankertexte eines Links indexiert. Das Newsgroup-Archiv und die PageRank-Version des ODP sind daruber hinaus hilfrei- che Informationsquellen.

Die Vorteile von AllTheWeb liegen ganz klar in der schnelleren Aktualisierung des Index (alle 7-11 Tage gegenuber ein Mal im Monat bei Google) und in der Tatsache, dass die Webseiten voll indexiert werden und nicht nur die ersten 100 KB.

3. Retrievalsystem

Die Angaben in diesem Kapitel beziehen sich lediglich auf die Web-Suche der beiden Suchmaschinen. Die Suchmoglichkeiten und Einstellungen bei den Spezialsuchen (z. B. nach Bildern oder Videos) konnen davon abweichen.

3.1 Google

Um erfolgreich bei Google suchen zu konnen, muss man einige Dinge uber die Funk- tionen dieser Suchmaschine wissen.

Allgemein ist zu beachten, dass in der einfachen Suche auf der Hauptseite eingege- bene Begriffe automatisch mit dem Operator UND verknupft sind. Eine Oder- Verknupfung von Suchbegriffen wird durch die Eingabe des Booleschen Operators OR erreicht. Mit dem "-"-Symbol kann eine Nicht-Verknupfung verwendet werden. Phrasen werden bei Google gekennzeichnet, indem man sie in Anfuhrungsstrichen in das Suchfeld eingibt. Diese Suche nach einer Phrase ist gleichzeitig der einzige Ab- standsoperator, den Google anbietet.

Worter, die sehr haufig vorkommen und kaum bei der Einschrankung einer Suche helfen, so genannte Stoppworter, werden bei Google ignoriert. Dies sind im Engli- schen zum Beispiel "the" und "of", im Deutschen "es", "von" und "zu". Ebenso wer­den einzelne Buchstaben und Zahlen sowie Domainkurzel wie "com" oder "de" nicht gesucht. Es ist jedoch moglich, diese dennoch in eine Suche zu integrieren, dazu muss man lediglich das "+"-Symbol vor den jeweiligen Begriff setzen.

Stoppworter innerhalb von Phrasen werden jedoch automatisch gesucht und benoti- gen kein "+"-Zeichen. Google ist ubrigens die einzige Suchmaschine, die es ermog- licht nach einem Zeichen zu suchen: dem Und-Zeichen "&".

Klammersetzung wird allerdings nicht unterstutzt und Google unterscheidet auch nicht zwischen GroG- und Kleinschreibung, nur die Booleschen Operatoren mussen in GroGbuchstaben eingegeben werden, da sie ansonsten als Stoppworter ignoriert werden.

Stemming (automatische Wortstammbildung) oder automatische Pluralbildung wer­den von Google ebenfalls nicht angeboten, so dass man ein Wort auch nur so findet, wie es eingegeben wurde. Eine Ausnahme bildet die Tippfehleranalyse. Google ist in der Lage Tippfehler zu erkennen und zu korrigieren. Wenn die eingegebene Suche zu 0 Treffern fuhrt, wird der Tippfehler automatisch korrigiert und der Benutzer darauf hingewiesen (siehe Abbildung 2).

Kategorie: World > Deutsch > > Nordrhein-Westfalen > Koln > Fachhochschule Koln

Fachhochschule Koln

Willkommen Welcome. B ienvenue Bienvenido. Kurzinformation

Wenn der eingegebene Begriff zwar zu Ergebnissen fuhrt, eine andere Schreibweise aber ebenfalls zu Treffern fuhrt, wird der User gefragt, ob er lieber nach diesem Beg­riff suchen mochte (Abb. 3).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Tippfehlerkorrektur bei Google (2)

Das Web wurde nach "retrievalsystem" durchsucht.

Meinten Sie: "retrievalsystem''

SCHARS Schuhspuren und -muster Archivierunqs- und Retrievalsystem

SCHARS. Schuhspuren und -muster Archivierungs- und Retrievalsystem.

Trunkierungen durch Jokerzeichen sind bei Google prinzipiell ebenfalls nicht moglich. Allerdings gibt es die (undokumentierte) Moglichkeit ein Wort innerhalb einer Phrase durch das "*"-Zeichen zu ersetzen. Eine Suche nach "wer * eine grube grabt" fuhrt also zu der Phrase "Wer anderen eine Grube grabt" aber auch zur Phrase "Wer En- ten eine Grube grabt".

AuGerdem bietet Google einige Moglichkeiten die Suche weiter einzuschranken. Die- se Einschrankungen konnen auch per Kurzel in das Suchfenster eingeben werden (allintitle: sucht z. B. ein Wort nur im Titel der Seite), bequemer kann man aber seine Suchbeschrankungen uber die Erweiterte Suche ("Advanced Search") auswahlen. Zunachst ist moglich, die Sprache des Dokuments auszuwahlen. In den Einstellun- gen (oder "Preferences") konnen auch mehrere Sprachen gleichzeitig ausgewahlt werden. Momentan stehen 35 Sprachen zur Auswahl. Weiterhin kann der User das Dateiformat der Suchergebnisse vorher festlegen und das Datum der Suchergebnis- se angeben. Bei letzterem kann der Benutzer lediglich wahlen, ob die Ergebnisse aus den letzten 3, 6 oder 12 Monaten stammen sollen. Die Datumsbegrenzung ist nur uber die Erweiterte Suche moglich und kann nicht durch ein Kurzel im Suchfens­ter eingegeben werden. Zudem kann eine Feldsuche eingestellt werden, das heiGt der Benutzer kann wahlen, ob Google nur Seiten anzeigen soll, in denen der Such- begriff an einer oder an mehreren bestimmten Stellen steht.

[...]

Ende der Leseprobe aus 27 Seiten

Details

Titel
Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich
Hochschule
Technische Hochschule Köln, ehem. Fachhochschule Köln  (Fakultät für Informations- und Kommunikationswesen)
Note
1
Autor
Jahr
2002
Seiten
27
Katalognummer
V8407
ISBN (eBook)
9783638153843
Dateigröße
646 KB
Sprache
Deutsch
Anmerkungen
Ein Vergleich von Datenbasis, Retrievalsystem und Benutzeroberfläche von Google und AllTheWeb. 425 KB
Schlagworte
Internet, Suchmaschinen, Google, AllTheWeb, FAST, Altavista, Informationswirtschaft, Informationswissenschaft, Information
Arbeit zitieren
Jan Krömer (Autor), 2002, Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich, München, GRIN Verlag, https://www.grin.com/document/8407

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden