Inhaltsverzeichnis
Abbildungsverzeichnis. 3
Einleitung. 4
I. Stolpersteine für Suchmaschinen. 5
II. Grundtypen der WWW Suchdienste. 6
II.I Webkataloge. 6
II.II (Indexbasierte) Suchmaschinen. 7
II.III Meta Suchmaschinen. 8
II.IV Payed Listing Suchmaschinen. 8
III. Suchverfahren. 9
IV. Gewichtungsverfahren im Einzelnen. 10
IV.I Relative Worthäufigkeit 10
IV.II Inverse Dokumentenhäufigkeit. 11
IV.III PageRank. 12
IV.IV Vektorraummodell. 13
IV.V WISERank. 13
IV.VI Cluster Verfahren. 13
IV.VI ExpertRank. 14
V. Google Maske - GoMa. 15
VI. Feldversuche. 15
VI.I Mit Eigenschaften von URL's: Tiefe, Länge, Position des Suchwortes 16
VI.II Mit HTML spezifisches: Description-, und Titeltag. 20
VI.III Webseiteninhalt: Suchworthäufigkeit. 22
VI.IV PageRank spezifisch: Back Links. 23
Literaturangabe. 24
2
Abbildungsverzeichnis
Abb 3.1 Komponenten eines Webrobot-Systems, Quelle: Michael Glöggler,
Suchmaschinen im Internet.
Abb. 5.1 GoMa, Quelle: GoMa
Abb. 6.1 Rangposition auf Linktiefe. Quelle: GoMa
Abb. 6.2 Rangpositionen auf Linklänge, Quelle:GoMa
Abb. 6.3 Absolute des Suchwortes innerhalb des URLs, Quelle:GoMa
Abb. 6.4 Absolute Position des Suchwortes innerhalb des Descriptiontags auf
Rangpositionen , Quelle:GoMa
Abb. 6.5 Position des Suchwortes innerhalb des Titeltags auf Rangpositionen,
Quelle :GoMa
Abb. 6.6 Suchwort Vorkommen auf Rangpositionen, Quelle:GoMa
Abb. 6.6 Back Links auf Rangpositionen, Quelle:GoMa
3
Einleitung
In dieser Hausarbeit werde ich verschiedene Arten von Webbrowser sowie unterschiedliche Such-, und Gewichtungsverfahren vorstellen. Verschiedene Methoden um die Relevanz von Dokumenten im Internet zu berechnen und die daraus resultierende Reihenfolge von Ergebnissen werden diskutiert. Ein Schwerpunkt bildet PageRank, das Gewichtungsverfahren welches zum ersten-mal von Google eingeführt worden ist und heutzutage in anderen Browsern auch in ähnlicherweise zum Einsatz kommt. Am Ende wird eine Google Maske vorgestellt mit der man die Ergebnisse einer Anfrage speichern, und in einem weiteren Schritt diese Ergebnisse graphisch darstellen kann. Im Folgenden wird das Wort Suchmaschine nur dann verwendet wenn es sich tatsächlich um eine eigentliche Indexbasierte Suchmaschine handelt. Ansonsten wird der Begriff Webbrowser oder Suchdienst benutzt.
4
I. Stolpersteine für Suchmaschinen
Die Internet Suchdienste müssen mit vielen Hindernissen fertig werden. Eine dieser Hindernisse ist das so genannte “Invisible Web”. Dies ist der Teil des Internets der von keinem normalen Browser indexiert wird. Dabei handelt es sich um dynamische Internet Seiten wie sie z.B. von Datenbankensystemen wie Oracle automatisch erzeugt und nur als Antwort von Abfragen erstellt werden. Es gibt kaum ein anderes Medium was so dynamisch und so schnell wächst wie das Internet. Die Anzahl der im Internet existierenden Dokumente wird auf 11,5 Milliarden 1 geschätzt. Davon sind nach eigenen Aussagen mehr als 8 Milliarden 2 in Google indiziert. Die Dokumentenanzahl wächst rasant und wird als Trend angesehen, d.h. dass es sich in Zukunft in ähnlicherweise weiter entwickeln wird. Wie kann ein Internet Browser auf neue bzw. gerade aktualisierte Dokumente reagieren? Damit ein Dokument überhaupt gefunden wird, muss es abhängig von der Natur des jeweiligen Suchdienstes, entweder angemeldet sein oder eine Software muss es “entdecken”. Damit das Dokument von der Software gefunden werden kann muss es verlinkt sein. Bei manchen Webbrowserarten werden nichtVerlinkte Dokumente gar nicht in dem Ergebnis einer Suche auftauchen. Bei Google z.B. wird eine Unverlinkte Seite in keiner Suche zu finden sein. Der Grund dafür ist dass Google hauptsächlich mit der Linkstruktur arbeitet. Wo es aber keinen Link auf eine Seite gibt, kann auch kein Relevanzberechnungsverfahren zum Einsatz kommen.
Im WWW gibt es nicht wenige Stellen wo Allgemeine Suchdienste 3 mit Software Tools zur Erschließung des Internets(WebRobots) gar nicht daran kommen. Dazu gehören Benutzereingaben generierte Dokumente und Zugangs geschützte Bereiche. Dann gibt es auch Technologien die es unmöglich machen dass WebRobots damit arbeiten können, zum Beispiel eine Seite die nur Graphiken enthält, oder genauer gesagt dass der Text und die Links sich auch in Graphiken befinden.
1 Nach einem Paper von Gulli und Signorini, http://www.cs.uiowa.edu/~asignori/web-size/, 2005
2 http://www.google.de/intl/de/why_use.html
3 z.B.: A9, Accoona, Alexa, Ask, Baidu, Exalead, Gigablast, Google, HotBot, Lexxe, Lycos, Majestic-
12, Mozdex, MSN Search, Netcraft. Rambler, Wisenut, Yahoo, Yandex, Blingo
5
II Grundtypen der WWW-Suchdienste:
Die im Internet gängigen verschiedenen Suchdienste werden in 4 Grundtypen unterteilt. Als Unterscheidungskriterium dienen: die Art wie sie ihren Datenbestand erzeugen, ihn verwalten und wie sie ein URL eine Gewichtung als antwort auf eine Suchanfrage geben.
II.I Webkataloge (Katalogbasierte Suchmaschinen)
Bei einem Webkatalog handelt es sich um einen Suchdienst dessen Datenbestand von menschlichen Redakteuren zusammengestellt wird, welche einen thematisch gegliederten Suchkatalog zusammenstellen. Web-Seiten werden dazu manuell geprüft redaktionell bewertet und verworfen oder für Aufnahme in den Katalog akzeptiert. Die Suche erfolgt dann durch blättern im Suchkatalog. Dieser Vorgang ist sehr aufwendig und kostenintensiv. Die intellektuelle Bewertung der Webseiten durch Menschen bewirkt eine Erhöhung der Qualität der Suchergebnisse. Der große Nachteil von Webkatalogen ist, dass sie auf einen relativ kleinen Datenbestand zurückgreift da Webseiten nur erscheinen nachdem sie angemeldet werden. Dadurch verlieren wir viele Treffer die unter Umständen wichtig sind. In anderen Wörtern, sinkt bei den Webkatalogen die Vollständigkeit (recall) während die Genauigkeit (Precision) steigt. Ein anderer Nachteil von Webkatalogen ist die Aktualität. In einem so dynamischen Medium wie das WWW, ist es sehr wichtig, dass aktualisierte Seiten auch geprüft werden. Es würde wenig Sinn machen dass man Seiten besucht die seit Jahren nicht mehr aktualisiert worden sind und bei welchen die Links in nicht existierende Seiten führen. Ein Webkatalog verfügt über keine Software die durch das Internet durchgeht (Webrobot 4 ) um neue Webseiten zu erschließen. Sollte der Eigentümer eines Internetportales sich dafür interessieren in einem Webkatalog aufzutauchen, muss er einen entsprechenden Antrag bei den einzelnen Webkatalogen erstellen. Dieser wird zusammen mit dem Inhalt der Webseite von Redakteuren analisiert, und dann fällt die Entscheidung ob und zu welcher Kategorie diese neue Webseite hinzugefügt wird. Die in Deutschland bekanntesten Webkataloge sind web.de und yahoo.com.
4 Auch Spider oder Crawler gennant
6
Arbeit zitieren:
Victor Saiz, 2006, Suchverfahren von Internetbrowsern, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Victor Saiz hat den Text Suchverfahren von Internetbrowsern veröffentlicht
Victor Saiz hat einen neuen Text hochgeladen
Google's Pagerank and Beyond: The Science of Search Engine Rankings
The Science of Search Engine R...
Amy N. Langville, Carl D. Meyer
Google Script: Enterprise Application Essentials
Adding Functionality to Your G...
James Ferreira
Tara Calishain, Rael Dornfest, Margarita Fernández-Villaverde del Valle
0 Kommentare