Fachhochschule Köln
Studiengang Informationswirtschaft
SS 2002
Erschließung von Informationsinhalten
Google und AllTheWeb
ein Vergleich von
- Datenbasis
- Retrievalsystem
-Benutzeroberfläche
30.07.2002
vorgelegt von:
Jan Krömer
2. Semester
Gliederung
1. Einleitung 03
2. Datenbasis 03
2.1 Google 03
2.2 AllTheWeb 05
2.3 Fazit 06
3. Retrievalsystem 07
3.1 Google 07
3.2 AllTheWeb 12
3.3 Fazit 15
4. Benutzeroberfläche 15
4.1 Google 15
4.2 AllTheWeb 18
4.3 Fazit 23
5. Zusammenfassung 23
Glossar 24
Quellenverzeichnis 26
1. Einleitung
Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularität und damit an Größe zugenommen. Mittlerweile schätzt man die Größe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Täglich kommen Millionen Seiten hinzu.
Um in dieser Menge an Informationen überhaupt etwas Gewünschtes finden zu können, sind Suchmaschinen immer wichtiger geworden. Zwar können selbst alle Suchmaschinen zusammen genommen nicht einmal annähernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlässlich für jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrieren, über die größte Datenbasis aller Suchmaschinenanbieter zu verfügen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search + Transfer (FAST). Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberfläche dieser zwei Suchmaschinen. Es sollen ihre speziellen Stärken und Schwächen herausgestellt werden. Da vor allem Google viele verschiedene Suchmöglichkeiten anbietet, von denen manche nur für die USA verfügbar sind, wird hier nicht auf alle Funktionen eingegangen.
2. Datenbasis
2.1 Google
Google bietet nach eigener Aussage Zugriff auf über 3 Milliarden Web Dokumente verschiedenster Typen. Die Datenbasis der Google Web Search umfasst über 2 Milliarden Dokumente (Google nennt auf seiner Homepage die Zahl 2.073.418.204). Neben HTML-Dateien bietet Google auch die Suche nach anderen Dateiarten an. Momentan erfasst sind hier ca. 35 Millionen Dokumente vor allem in den Formaten Adobe Portable Document Format (pdf), Adobe PostScript (ps), MacWrite (mw), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Rich Text Format (rtf), Text (ans, txt), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku) und Lotus WordPro (lwp). 3 Milliarden Webseiten werden von Google sogar täglich indexiert. Allerdings sind erst 1,5 Mrd. der 2 Mrd. Datensätze voll indexiert und bei diesen auch immer nur ungefähr die ersten 100 KB des Textes. Interessant ist, dass bei Google nicht nur Text, Titel und URL einer Webseite die Dokumentationseinheit darstellen, sondern auch die Ankertexte der Links, die auf diese Webseite verweisen. Dies geschieht zum einen, weil Ankertexte genauere Beschreibungen eines Dokuments enthalten können, als das Dokument selbst. Zum anderen können bestimmte Dokumenttypen wie z. B. Bilder ja gar nicht über Text indexiert werden. Das Indexieren selbst geschieht mit Hilfe von Crawlern, bei Google "Googlebot" genannt. Der Googlebot aktualisiert den Index ca. ein Mal im Monat. Bei 500 Millionen Dokumenten in Googles Datenbasis wurde jedoch noch nicht der Text indexiert, sondern lediglich die URL und der Ankertext des Links, der zu der betreffenden Webseite führt, so dass diese Dokumente kaum von der Suchmaschine gefunden werden. Meistens handelt es sich hierbei um veraltete oder ungenaue Links, um Dubletten von vorhandenen Seiten oder um geschützte Webseiten. Zu erkennen sind sie daran, dass sie im Gegensatz zu den anderen Suchergebnissen kein Extract und keine Angabe der Seitengröße enthalten und auch keine archivierte Version der Seite vorliegt.
[...]
Quote paper:
Jan Krömer, 2002, Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Der Faktor Hitler - Die Bedeutung der Person Hitler für das NS-System
History Europe - Germany - National Socialism, World War II
Scholary Paper (Seminar), 17 Pages
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Jan Krömer has published the text Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich
Jan Krömer has uploaded a new text
Tara Calishain, Rael Dornfest, Margarita Fernández-Villaverde del Valle
Google Hacks: Tips & Tools for Finding and Using the World's Informati...
Rael Dornfest, Paul Bausch, Tara Calishain
Google AdWords - Punktgenau und zielgerichtet werben
So nutzen Sie das größte Werbe...
Sabrina Zebisch
The book that should have been...
Sarah Milstein, Matthew MacDonald, J. D. Biersdorfer
Google's Pagerank and Beyond: The Science of Search Engine Rankings
The Science of Search Engine R...
Amy N. Langville, Carl D. Meyer
0 comments