Please wait
Please install the Adobe Flash Player if no e-book is displayed.
Termpaper, 2002, 27 Pages
Author: Jan Krömer
Subject: Information Management
Details
Tags: Internet, Suchmaschinen, Google, AllTheWeb, FAST, Altavista, Informationswirtschaft, Informationswissenschaft, Information
Year: 2002
Pages: 27
Grade: 1
Language: German
ISBN (E-book): 978-3-638-15384-3
File size: 310 KB
Ein Vergleich von Datenbasis, Retrievalsystem und Benutzeroberfläche von Google und AllTheWeb. 425 KB
Other users also were interested in the following titles:
Excerpt (computer-generated)
Fachhochschule Köln
Studiengang Informationswirtschaft
SS 2002
Erschließung von Informationsinhalten
Google und AllTheWeb
ein Vergleich von
- Datenbasis
- Retrievalsystem
-Benutzeroberfläche
30.07.2002
vorgelegt von:
Jan Krömer
2. Semester
Gliederung
1. Einleitung 03
2. Datenbasis 03
2.1 Google 03
2.2 AllTheWeb 05
2.3 Fazit 06
3. Retrievalsystem 07
3.1 Google 07
3.2 AllTheWeb 12
3.3 Fazit 15
4. Benutzeroberfläche 15
4.1 Google 15
4.2 AllTheWeb 18
4.3 Fazit 23
5. Zusammenfassung 23
Glossar 24
Quellenverzeichnis 26
1. Einleitung
Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularität und damit an Größe zugenommen. Mittlerweile schätzt man die Größe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Täglich kommen Millionen Seiten hinzu.
Um in dieser Menge an Informationen überhaupt etwas Gewünschtes finden zu können, sind Suchmaschinen immer wichtiger geworden. Zwar können selbst alle Suchmaschinen zusammen genommen nicht einmal annähernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlässlich für jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrieren, über die größte Datenbasis aller Suchmaschinenanbieter zu verfügen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search + Transfer (FAST). Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberfläche dieser zwei Suchmaschinen. Es sollen ihre speziellen Stärken und Schwächen herausgestellt werden. Da vor allem Google viele verschiedene Suchmöglichkeiten anbietet, von denen manche nur für die USA verfügbar sind, wird hier nicht auf alle Funktionen eingegangen.
2. Datenbasis
2.1 Google
Google bietet nach eigener Aussage Zugriff auf über 3 Milliarden Web Dokumente verschiedenster Typen. Die Datenbasis der Google Web Search umfasst über 2 Milliarden Dokumente (Google nennt auf seiner Homepage die Zahl 2.073.418.204). Neben HTML-Dateien bietet Google auch die Suche nach anderen Dateiarten an. Momentan erfasst sind hier ca. 35 Millionen Dokumente vor allem in den Formaten Adobe Portable Document Format (pdf), Adobe PostScript (ps), MacWrite (mw), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Rich Text Format (rtf), Text (ans, txt), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku) und Lotus WordPro (lwp). 3 Milliarden Webseiten werden von Google sogar täglich indexiert. Allerdings sind erst 1,5 Mrd. der 2 Mrd. Datensätze voll indexiert und bei diesen auch immer nur ungefähr die ersten 100 KB des Textes. Interessant ist, dass bei Google nicht nur Text, Titel und URL einer Webseite die Dokumentationseinheit darstellen, sondern auch die Ankertexte der Links, die auf diese Webseite verweisen. Dies geschieht zum einen, weil Ankertexte genauere Beschreibungen eines Dokuments enthalten können, als das Dokument selbst. Zum anderen können bestimmte Dokumenttypen wie z. B. Bilder ja gar nicht über Text indexiert werden. Das Indexieren selbst geschieht mit Hilfe von Crawlern, bei Google "Googlebot" genannt. Der Googlebot aktualisiert den Index ca. ein Mal im Monat. Bei 500 Millionen Dokumenten in Googles Datenbasis wurde jedoch noch nicht der Text indexiert, sondern lediglich die URL und der Ankertext des Links, der zu der betreffenden Webseite führt, so dass diese Dokumente kaum von der Suchmaschine gefunden werden. Meistens handelt es sich hierbei um veraltete oder ungenaue Links, um Dubletten von vorhandenen Seiten oder um geschützte Webseiten. Zu erkennen sind sie daran, dass sie im Gegensatz zu den anderen Suchergebnissen kein Extract und keine Angabe der Seitengröße enthalten und auch keine archivierte Version der Seite vorliegt.
[...]
Comments
No comments yet
Other users also were interested in the following titles:
Der Faktor Hitler - Die Bedeutung der Person Hitler für das NS-System
Author: Stephan GeierHistory - National Socialism, World War II, 2002 Download as PDF-file for 5,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Author: Marco FeindlerPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2008 Download as PDF-file for 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Author: Zoran ZivkovicPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Author: Claudia NickelPresentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Author: Maik PhilippPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Author: Mark RichterPresentations, Models, Tutorials, Instructions, 2008
This text can be quoted and accessed from this url: