Register or log in at GRIN

Your e-mail-address or password is wrong
Register now
For new authors: free, easy and fast
This will be used as your user name, please specify a valid e-mail address

Lost password

Your e-mail-address or password is wrong

Request a new password
Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich close

Please wait

Please install the Adobe Flash Player if no e-book is displayed.

Internet Suchmaschinen - Google und AllTheWeb (FAST) im Vergleich

Termpaper, 2002, 27 Pages
Author: Jan Krömer
Subject: Information Management

Details

Category: Termpaper
Year: 2002
Pages: 27
Grade: 1
Language: German
Archive No.: V8407
ISBN (E-book): 978-3-638-15384-3

File size: 310 KB
Notes :
Ein Vergleich von Datenbasis, Retrievalsystem und Benutzeroberfläche von Google und AllTheWeb. 425 KB



Excerpt (computer-generated)

Fachhochschule Köln
Studiengang Informationswirtschaft
SS 2002

Erschließung von Informationsinhalten
Google und AllTheWeb
ein Vergleich von
- Datenbasis
- Retrievalsystem
-Benutzeroberfläche

30.07.2002
vorgelegt von:
Jan Krömer
2. Semester

Gliederung

1. Einleitung 03

2. Datenbasis 03
2.1 Google 03
2.2 AllTheWeb 05
2.3 Fazit 06

3. Retrievalsystem 07
3.1 Google 07
3.2 AllTheWeb 12
3.3 Fazit 15

4. Benutzeroberfläche 15
4.1 Google 15
4.2 AllTheWeb 18
4.3 Fazit 23

5. Zusammenfassung 23

Glossar 24
Quellenverzeichnis 26

 

1. Einleitung

Das Internet hat seit seiner "Entdeckung" durch die breite Masse stark an Popularität und damit an Größe zugenommen. Mittlerweile schätzt man die Größe des World Wide Web auf einige hundert Milliarden Webseiten bei ca. 500 Millionen Usern. Täglich kommen Millionen Seiten hinzu.

Um in dieser Menge an Informationen überhaupt etwas Gewünschtes finden zu können, sind Suchmaschinen immer wichtiger geworden. Zwar können selbst alle Suchmaschinen zusammen genommen nicht einmal annähernd das ganze Internet durchsuchen, trotzdem sind sie, richtig angewandt, unerlässlich für jeden Websurfer. Im Folgenden sollen zwei Suchmaschinen vorgestellt werden, die darum konkurrieren, über die größte Datenbasis aller Suchmaschinenanbieter zu verfügen. Diese sind zum einen Google und zum anderen die Suchmaschine AllTheWeb der Firma Fast Search + Transfer (FAST). Verglichen werden die Datenbasis, das Retrievalsystem und die Benutzeroberfläche dieser zwei Suchmaschinen. Es sollen ihre speziellen Stärken und Schwächen herausgestellt werden. Da vor allem Google viele verschiedene Suchmöglichkeiten anbietet, von denen manche nur für die USA verfügbar sind, wird hier nicht auf alle Funktionen eingegangen.

2. Datenbasis
2.1 Google

Google bietet nach eigener Aussage Zugriff auf über 3 Milliarden Web Dokumente verschiedenster Typen. Die Datenbasis der Google Web Search umfasst über 2 Milliarden Dokumente (Google nennt auf seiner Homepage die Zahl 2.073.418.204). Neben HTML-Dateien bietet Google auch die Suche nach anderen Dateiarten an. Momentan erfasst sind hier ca. 35 Millionen Dokumente vor allem in den Formaten Adobe Portable Document Format (pdf), Adobe PostScript (ps), MacWrite (mw), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Rich Text Format (rtf), Text (ans, txt), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku) und Lotus WordPro (lwp). 3 Milliarden Webseiten werden von Google sogar täglich indexiert. Allerdings sind erst 1,5 Mrd. der 2 Mrd. Datensätze voll indexiert und bei diesen auch immer nur ungefähr die ersten 100 KB des Textes. Interessant ist, dass bei Google nicht nur Text, Titel und URL einer Webseite die Dokumentationseinheit darstellen, sondern auch die Ankertexte der Links, die auf diese Webseite verweisen. Dies geschieht zum einen, weil Ankertexte genauere Beschreibungen eines Dokuments enthalten können, als das Dokument selbst. Zum anderen können bestimmte Dokumenttypen wie z. B. Bilder ja gar nicht über Text indexiert werden. Das Indexieren selbst geschieht mit Hilfe von Crawlern, bei Google "Googlebot" genannt. Der Googlebot aktualisiert den Index ca. ein Mal im Monat. Bei 500 Millionen Dokumenten in Googles Datenbasis wurde jedoch noch nicht der Text indexiert, sondern lediglich die URL und der Ankertext des Links, der zu der betreffenden Webseite führt, so dass diese Dokumente kaum von der Suchmaschine gefunden werden. Meistens handelt es sich hierbei um veraltete oder ungenaue Links, um Dubletten von vorhandenen Seiten oder um geschützte Webseiten. Zu erkennen sind sie daran, dass sie im Gegensatz zu den anderen Suchergebnissen kein Extract und keine Angabe der Seitengröße enthalten und auch keine archivierte Version der Seite vorliegt.

[...]


Comments

No comments yet

Add Comment
Your comment is reviewed before being published

Other users also were interested in the following titles:

Erstellen einer schriftlichen Hausarbeit

Author: Claudia Nickel
Presentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR

Grundtechniken wissenschaftlichen Arbeitens

Author: Maik Philipp
Presentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR

This text can be quoted and accessed from this url:

http://www.grin.com/e-book/8407/internet-suchmaschinen-google-und-alltheweb-fast-im-vergleich
please wait Please wait