Kurzfassung 2
Kurzfassung
Die folgende Große Studienarbeit befasst sich mit den Ranking-Verfahren der Internet-Suchmaschine Google und der Relevanzoptimierung von Webdokumenten für diese Ranking-Verfahren. Es wird zunächst ein Überblick über das Unternehmen Google gegeben, dessen Entstehung, Entwicklung und heutige Position dargestellt sowie Gründe für den Erfolg aufgezeigt. Im Mittelpunkt der Arbeit stehen verschiedene eingesetzte Ranking-Verfahren, wobei das PageRank-Verfahren von Google und der zugrundeliegende Algorithmus detailliert vorgestellt werden. Weiterhin untersucht diese Arbeit wie Webdokumente zu optimieren sind und welche Fehler vermieden werden sollten, um das Ranking bei Google und dadurch auch bei anderen Suchmaschinen zu verbessern.
Schlagwörter: Google, Suchmaschine, Relevanzoptimierung, Ranking-Verfahren, PageRank
Abstract
The following work treats the ranking procedures of the internet search engine Google and the relevance optimization of web documents for these ranking procedures. First an overview of the enterprise Google is given, its emergence, development and today's position are represented as well as pointed out reasons for success. In the center of the work stands different assigned ranking procedures, whereby the PageRank procedure of Google and the underlying algorithm are detailed presented. Further this work examines as web documents are to be optimized and which errors should be avoided, in order to improve the ranking at Google and thus also at other search engines. Keywords: Google, search engine, relevance optimization, ranking procedures, PageRank
Inhaltsverzeichnis 3
Inhaltsverzeichnis
Kurzfassung. 2
Abstract. 2
Inhaltsverzeichnis 3
Abbildungsverzeichnis. 5
Tabellenverzeichnis 5
Abkürzungsverzeichnis 6
1 Einleitung 7
2 Stand der Technik 8
3 Google - Eine Erfolgsstory 10
3.1 Entstehung von Google 10
3.1.1 Entwicklung von PageRank und BackRub. 10
3.1.2 Gründung von Google 11
3.1.3 Der rasante Aufstieg 11
3.1.4 Bedeutung des Wortes „Google“ 13
3.2 Google heute. 13
3.2.1 Googles Vorrangstellung. 13
3.2.2 Googles Geschäftsmodell. 17
3.2.3 Geschäftszahlen. 18
3.3 Gründe für den Erfolg von Google. 19
3.3.1 Philosophie von Google 19
3.3.2 Herausragende Usability 19
3.4 Aktuelle Entwicklungen 20
3.4.1 Googles Zukunftspläne. 20
3.4.2 Aktivitäten der Konkurrenz. 22
4 Ranking-Verfahren 24
4.1 Einführung. 24
4.1.1 Begriffsklärungen 24
4.1.2 Bedeutung des Rankings für Webseiten-Betreiber. 25
4.1.3 Suchergebnisliste von Google 25
4.2 Statistische Gewichtungsmodelle. 26
4.2.1 Das Vektorraummodell 26
4 2 2 Die relative Worthäufigkeit (TF-Algorithmus) 28
Inhaltsverzeichnis 4
4.2.3 Die inverse Dokumentenhäufigkeit (ITF-Algorithmus) 29
4.2.4 Bedeutung der Lage eines Keywords 30
4.3 Hypermedia basierte Gewichtungsmodelle. 31
4.3.1 Link Popularity-Verfahren 31
4.3.2 Systematik der Click Popularity. 32
4.4 Cluster-Verfahren 32
4.5 Payed Placement bei Google 34
4.5.1 AdWords. 34
4.5.2 Premium Sponsorship. 35
5 PageRank - Das Herzstück der Google-Technologie 36
5.1 Theoretischer Ansatz von PageRank. 36
5.2 Der PageRank-Algorithmus 37
5.2.1 Definition des PageRank-Algorithmus. 37
5.2.2 Iterative Berechnung des PageRanks 38
5.2.3 Das Random Surfer Modell. 40
5.2.4 Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens. 41
5.2.5 Problematik des Konzepts 42
5.3 Möglichkeiten den PageRank einzusehen 42
5.3.1 PageRank-Wert über das Google-Verzeichnis. 42
5.3.2 PageRank-Wert über die Google-Toolbar. 43
6 Relevanzoptimierung 44
6.1 Grundlegende Aspekte der Optimierung. 44
6.2 On the Page Methoden der Optimierung. 44
6.2.1 Keyword-Strategie. 45
6.2.2 Auswahl des Dokumententyps 46
6.2.3 Dynamisch generierte HTML-Dokumente. 47
6.2.4 Der Dokumententitel 47
6.2.5 Bedeutung der Meta-Tags 49
6.2.6 Textauszeichnung, Textgröße und Überschriften. 49
6.2.7 Link-Strukturen und Verzeichnistiefe 50
6.2.8 Valides HTML. 51
6.2.9 Cookies und Log In 51
6.3 Off the Page Methoden der Optimierung 52
6.3.1 Domain-Name und Bezeichnung der Verzeichnisse 52
6.3.2 Aktualität und Änderungsfrequenz. 53
6.3.3 Optimierung des PageRanks. 53
7 Zusammenfassung und Ausblick 56
Literaturverzeichnis 57
Abbildungsverzeichnis
Abbildungsverzeichnis
Abbildung 1: Suchsystem der Stanford University (Stanford University, 2003)
Abbildung 2: Weltweite Standorte der Google Inc. (Google, 2004a)
Abbildung 3: Top 10 Such-Channels in Europa (Nielsen Netratings, 2004b, S. 2)
Abbildung 4: Marktanteile in Deutschland (links) und Entwicklung selbiger (rechts)
Abbildung 5: Brand of the Year 2003 Results (Rusch, 2004)
Abbildung 6: Die asketisch wirkende Startseite von Google.com (Google, 2004g)
Abbildung 7: Google Labs - Innovative Ideen für die Zukunft (Google, 2004c)
Abbildung 8: Suchergebnisliste - verkürzte Darstellung (Google, 2004g)
Abbildung 9: Vektorrepräsentation im Vektorraummodell (Glöggler, 2003, S. 75)
Abbildung 10: Similar pages-Funktion von Google (Google, 2004g)
Abbildung 11: Links und Gewichtung (Wimmeroth & Brochhagen, 2003, S. 18)
Abbildung 12: PageRank - Ausgangssituation (Glöggler, 2003, S. 84)
Abbildung 13: PageRank - erste Iteration (Glöggler, 2003, S. 85)
Abbildung 14: PageRank - zweite Iteration (Glöggler, 2003, S. 86)
Abbildung 15: Anzeige des PageRanks über das Google Directory (Google, 2003i)
Abbildung 16: Anzeige des PageRanks über die Google-Toolbar (Google, 2004f)
Abbildung 17: Webdokumente die auf eine Webpräsenz verweisen (Google, 2004g)
Abbildung 18: Zirkelbezug bei PageRank (Glöggler, 2003, S. 181)
Tabellenverzeichnis
Tabelle 1: Top 5 Suchplattformen USA (Nielsen Netratings, 2004a, S. 1)
Tabelle 2: Top 10 Such-Channels in Europa (Nielsen Netratings, 2004b, S. 1)
Tabelle 3: Vergleich binärer Vektor - gewichteter Vektor (Glöggler, 2003, S. 74)
Tabelle 4: Wertigkeit der Votes (Wimmeroth & Brochhagen, 2003, S 19)
Abkürzungsverzeichnis 6
Abkürzungsverzeichnis
API Application Programming Interface CPC Cost per Click HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol IDF Inverse Document Frequency ITF Inverse Term Frequency IR Information Retrieval LP Link Popularity PR PageRank PR0 PageRank 0 SEC Securities and Exchange Commission SEO Search Engine Optimization TF Term Frequency URL Uniform Resource Locator US United States W3C World Wide Web Consortium WWW World Wide Web WYSIWYG What you see is what you get XML Extensible Markup Language
1 Einleitung 7
1 Einleitung
Ziel dieser Arbeit ist es einen detaillierten Überblick zu geben, wie das Ranking der zur Zeit erfolgreichsten und für Webseiten-Betreiber bedeutendsten Internet-Suchmaschine Google funktioniert, um dadurch abzuleiten welche konkreten Maßnahmen getroffen werden müssen um die Relevanz von Webdokumenten zu optimieren. Insbesondere soll das nicht triviale - aber für das Ranking entscheidende - PageRank-Verfahren von Google vorgestellt werden.
Darüber hinaus soll diese Arbeit einen umfassenden Überblick über das Unternehmen Google und seine überragende Marktposition geben. Für Webseiten-Betreiber ist es enorm wichtig zu wissen, welche aktuellen Entwicklungen es auf dem Markt der Suchmaschinen gibt, welche Ranking-Verfahren bzw. welche Unternehmen dominant sind und wie sich dieser Markt in Zukunft entwickeln könnte. Grundlegende Motivation dieser Arbeit ist die zunehmende Bedeutung des Rankings von Suchmaschinen, sowie die geringen vorhandenen Informationen über Ranking-Verfahren. Bereits heute investieren Unternehmen, besonders aus dem Bereich E-Commerce, hohe Summen für die Relevanzoptimierung ihrer Webdokumente und beauftragen Firmen, die auf Suchmaschinenoptimierung spezialisiert sind, mit der Verbesserung ihres Rankings. Das Ranking kann entscheidend für den Erfolg eines Unternehmens sein. Hohe Umsätze im Bereich E-Commerce lassen sich nur mit entsprechend hohen Zugriffen erreichen. Obwohl 90 Prozent aller Internet-Nutzer ihre Suche über Suchmaschinen beginnen, wird dem Bereich der Relevanzoptimierung derzeit noch zu wenig Aufmerksamkeit geschenkt. Oft wird von Unternehmen viel Zeit und Geld in das Design des Webauftritts bzw. die Inhalte investiert, ohne die speziellen Anforderungen der Suchmaschinen zu berücksichtigen.
Einen hohen Stellenwert hat die Listung bei den führenden Suchmaschinen. Diese Arbeit befasst sich deshalb mit der, zur Zeit marktbeherrschenden, Suchmaschine Google und versucht alle Aspekte und Anforderungen selbiger zu berücksichtigen.
2 Stand der Technik 8
2 Stand der Technik
Bei der Weiterentwicklung der Ranking-Verfahren und Suchmaschinen-Technologie gab es in den letzten Jahren große Innovationen. Bedingt durch die Kommerzialisierung des WWW (World Wide Web) Mitte der neunziger Jahre und dem damit verbundenen, enormen Wachstum des Internet, ist es für Suchmaschinen-Betreiber immer wichtiger innovative und zuverlässige Ranking-Verfahren, sowie effiziente und skalierbare Algorithmen einzusetzen. Relevante Suchergebnisse lassen sich bei der unüberschaubaren und jährlich wachsenden Anzahl von Webdokumenten nur durch kontinuierlich weiterentwickelte Ranking-Verfahren erzielen. Eine der größten Innovationen im Bereich der Ranking-Verfahren wurde durch die Google-Gründer Larry Page und Sergey Brin entwickelt. Ihre Software PageRank, hat sich in ähnlicher Form als Link Popularity-Vefahren (LP) verbreitet und wird mittlerweile von allen bedeutenden Suchmaschinen in unterschiedlicher Form für die Ermittlung der Rangfolge eingesetzt. Bei diesem Hypermedia basierten Gewichtungsmodell werden Hyperlink-Verweise von Dokumenten zueinander analysiert und die Anzahl und Qualität der Hyperlink-Verweise als relevantes Gewichtungskriterium eingesetzt. Ein weiteres, innovatives Hypermedia basiertes Gewichtungsmodell stellt die von Gary Culiss und Mike Cassidy entwickelte Click Popularity-Technik dar, ein Gewichtungsverfahren, das bei der Relevanzberechnung von Dokumenten neben der Anzahl der Klicks, die ein Dokument von Nutzern über die Suchergebnisliste erhält, auch die Verweildauer auf den Dokumenten berücksichtigt (Glöggler, 2003, S.81).
Zusätzlich zu den Hypermedia basierten Gewichtungsmodellen setzen die Suchdienste traditionelle statistische Gewichtungsmodelle wie z.B. das Vektorraummodell, die relative bzw. inverse Dokumentenhäufigkeit oder die Lage von Keywords ein. Die statistischen Gewichtungsmodelle haben im Gegensatz zu den Hypermedia basierten Gewichtungsmodellen in den letzten Jahren immer mehr an Bedeutung verloren. Bei Google stellt das PageRank-Verfahren (vgl. Kapitel 5) die dominierende Methode zur Bestimmung der Bedeutung eines Dokuments dar, die statistischen Gewichtungsmodelle kommen ergänzend zum Einsatz (Glöggler, 2003, S.73). Für die Relevanzoptimierung von Dokumenten existiert nach wie vor kein generelles Erfolgsrezept. Google (Google, 2002b) gibt aber Richtlinien für Webseiten-Betreiber vor, um zumindest die Listung in den Suchergebnissen zu gewährleisten.
2 Stand der Technik 9
Der Markt der Suchmaschinen lässt sich nach Glöggler (2003, S. 1) in folgende Grundtypen einteilen, die sich vor allem im Hinblick auf die Technik zur Datenbeschaffung unterscheiden:
Bei Webkatalogen wie z.B. Yahoo werden alle Dokumente die in den Datenbestand aufgenommen werden von Mitarbeitern des Suchdienstes manuell geprüft, redaktionell bewertet, verworfen oder akzeptiert. Bei Suchmaschinen wie Google erfolgt dies durch automatisierte Verfahren ohne manuelle Eingriffe. Metasuchmaschinen wie beispielsweise MetaGer verfügen über keinen eigenen Datenbestand, sondern greifen gezielt auf die Daten anderer Suchmaschinen und Webkataloge zu. Das Prinzip von Payed Placement-Suchmaschinen wie Overture basiert auf dem Verkauf von Rangpositionen bei anderen Suchdiensten gegen Höchstgebot, wofür die Betreiber Flächen innerhalb der Suchergebnislisten der Partner-Suchdienste kaufen. (Glöggler, 2003, S. 2-10).
3 Google - Eine Erfolgsstory 10
3 Google - Eine Erfolgsstory
In den folgenden Kapiteln wird ein Überblick über das Unternehmen Google gegeben. Neben dessen Entstehung, Entwicklung und heutiger Position, werden Gründe für den Erfolg aufgezeigt, sowie aktuelle Entwicklungen im Markt der Suchmaschinen und Konkurrenzaktivitäten dargestellt. Dieser Überblick soll im Hinblick auf die in dieser Arbeit untersuchten Aspekte ein besseres Verständnis der Zusammenhänge erreichen.
3.1 Entstehung von Google
Die Suchmaschine Google ist aus einem akademischen Projekt heraus entstanden. Im Jahr 1995 trafen sich erstmals die späteren Google-Gründer Lawrence („Larry“) Page und Sergey Brin, beide Doktoranden der Computerwissenschaft an der Universität Stanford in Kalifornien, USA (Google, 2003h).
3.1.1 Entwicklung von PageRank und BackRub
Im Jahr 1996 beginnen Larry Page und Sergey Brin ihre Arbeit an einer neuartigen und mächtigen Suchmaschine. Im Rahmen ihrer Arbeiten beschreiben sie die mathematischtheoretischen Grundlagen und implementieren ein erstes Suchmaschinensystem auf der Grundlage ihrer Technik. Der Google-Prototyp erhält zunächst den Namen „BackRub“, eine Anspielung auf die Fähigkeit Links (Verweise), die auf ein Webdokument verweisen (sog. „back links“), zu analysieren. Das Suchmaschinensystem stand Interessenten unter der Adresse http://google.stanford.edu zur Verfügung, welche auch heute noch existiert (Wimmeroth & Brochhagen, 2003, S. 12).
Abbildung 1: Suchsystem der Stanford University (Stanford University, 2003)
3 Google - Eine Erfolgsstory 11
In ihrem Dokument „The Anatomy of a Large-Scale Hypertextual Web Search Engine” (Brin & Page, 1998) beschreiben Larry Page und Sergey Brin die Technologie, die sich für die relevanten Suchergebnisse der Suchmaschine Google verantwortlich zeigt. Die Technologie wird von den Entwicklern PageRank (vgl. Kapitel 5) genannt und „nimmt eine objektive Bewertung der Wichtigkeit von Websites vor“ (Google, 2003d). Der Name bezieht sich nicht etwa auf „Page“ im Sinne einer Web„page“, sondern auf den Namen des Entwicklers Larry Page (Stock & Stock, 2001). Sowohl PageRank als auch Google sind als Markennamen urheberrechtlich geschützt (Wimmeroth & Brochhagen, 2003, S. 12).
3.1.2 Gründung von Google
Im ersten Halbjahr 1998 setzten Larry Page und Sergey Brin ihre Arbeiten an der Suchmaschine fort und vervollständigten ihre Technologie. Trotz des damaligen Dotcom-Fiebers zeigten die großen Unternehmen wenig Interesse für ihre Idee und der Versuch Investoren zu gewinnen scheiterte, worüber sie im Nachhinein durchaus froh waren. Der Yahoo-Gründer David Filo befand ihre Technologie für grundsolide, ermutigte sie aber für das Wachstum des Suchdienstes eine Firma zu gründen. "When it's fully developed and scalable, let's talk again" (Google, 2003h). Larry und Sergey entschieden sich dazu nun doch eigene Wege zu beschreiten, sie benötigten nur etwas Startkapital für ihr Vorhaben. Einer der das volle Potential der Technologie erkannte war Andy Bechtolsheim, einer der Gründer von Sun Microsystems. Ihm genügte bereits eine kurze Demonstration, um Larry und Sergey einen Scheck in Höhe von 100.000 US-Dollar auszuhändigen. Der Scheck war allerdings ausgestellt auf eine Firma names Google Inc., und diese Firma existierte nicht. Er konnte erst eingelöst werden als Larry und Sergey alle Formalitäten zur Gründung der neuen Firma erledigt hatten. Es gelang ihnen bei Freunden, Bekannten und in ihren Familien weitere Geldgeber zu finden, so dass sie es auf ein Startkapital in Höhe von ca. einer Million US-Dollar brachten. Am 7. September 1998 wird Google Inc. gegründet, ein klassisches Garagen-Startup mit Sitz in Menlo Park, Kalifornien (Google, 2003h).
3.1.3 Der rasante Aufstieg
Zu Beginn beantwortete Google, immer noch in der Beta-Phase, bereits 10.000 Suchanfragen am Tag, ein halbes Jahr später waren es bereits 500.000. Die Presse wurde schnell auf die neue Suchmaschine mit den relevanten Suchergebnissen aufmerksam. Die Zahl der Mitarbeiter war auf acht angestiegen, so dass das Garagenbüro schnell zu eng wurde und Google im Februar 1999 in ein Büro der University Avenue in Palo Alto umzog. Aufgrund der Tatsache, dass Google
3 Google - Eine Erfolgsstory 12
konsequent auf das Betriebssystem Linux setzt, konnte man den großen Linux Distributor Red Hat als Kunden gewinnen (Google, 2003h).
Im Juni 1999 investierten die führenden Venture Capital-Firmen Sequoia Capital und Kleiner Perkins Caufield & Buyers 25 Millionen US-Dollar in die neue Firma. Von nun an ging es in großen Schritten weiter. Inzwischen war die Zahl der Mitarbeiter so stark angewachsen, dass Google erneut den Firmensitz verlegte. Google bezog Quartier im sog. „Googleplex“ in Mountain View, Kalifornien, wo auch heute noch der Sitz des Unternehmens ist. Die Anzahl der Suchanfragen stieg auf drei Millionen pro Tag an, nachdem AOL/Netscape Google als Web-Suchdienst auswählte (Google, 2003h). Am 21. September 1999 wurde die Beta-Phase endgültig abgeschlossen und der schon lange nur noch symbolische „beta“ Sticker von der Google-Website entfernt. Die Expansion konnte durch neue Lizenznehmer wie z.B. Virgilio, dem führenden Online-Portal Italiens, vorangetrieben werden. Google erhielt mehrere Awards (Auszeichnungen) für das Jahr 1999 und konnte dadurch den Bekanntheitsgrad weiter steigern (Google, 2003h).
Der endgültige Durchbruch gelang Google im Jahr 2000, als am 26. Juni Yahoo von Inktomis Suchtechnologie auf Googles Lösung umstieg und Google dadurch zur weltweit größten Suchmaschine, mit einem Index von einer Milliarde URLs, avancierte. Google beantwortete nun 18 Millionen Suchanfragen pro Tag und startete den Suchdienst in 10 weiteren Sprachen. Durch den großen Deal mit Yahoo stieg der Bekanntheitsgrad von Google enorm an. Ende des Jahres 2000 lag die Zahl der durchschnittlichen täglichen Anfragen schon bei 100 Millionen, was auch ein Verdienst der neu eingeführten Google Toolbar war, ein Browser-Plugin, das komfortable Suchfunktionen jederzeit zur Verfügung stellt. Google stellte im Jahr 2000 auch sein neues Programm AdWords vor, mit dem auch kleinere Werbetreibende innerhalb weniger Minuten eine Online Kampagne starten und Werbeanzeigen kontextbezogen platzieren können. AdWords stellt auch heute noch ein wichtiges Standbein in Googles Geschäftsmodell dar (Google, 2003h).
Im Jahre 2001 konnte Google die Akquisition des Unternehmens Deja.com vermelden und sich damit das Usenet-Archiv mit über 500 Millionen Beiträgen bis zurück ins Jahr 1995 sichern. Google entwickelte auf Grundlage dieses Archivs die Google Groups, welche über eine Web-Oberfläche die Teilnahme an den Diskussionen des Usenet ermöglichen. Als weitere Neuentwicklungen starteten 2001 der Google Zeitgeist, eine Statistik der häufigsten Suchbegriffe, sowie die Google Bildersuche und die Google Katalogsuche. Während bei der Bildersuche zunächst 250 Millionen Bilddateien durchsucht werden können, stellt die Katalogsuche 110 eingescannte Kataloge zur Verfügung, die im Volltext durchsucht werden können. Googles Suchdienst startete in einer jeweiligen Landesversion in mehreren Ländern, darunter auch Deutschland mit
Arbeit zitieren:
Philipp Wiedmaier, 2004, Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Suchmaschinenoptimierung am Beispiel von Google
Informationswissenschaften, Informationsmanagement
Diplomarbeit, 143 Seiten
Evaluierung von Suchmaschinen - Interaktion und Kommunikation
Informationswissenschaften, Informationsmanagement
Hausarbeit (Hauptseminar), 38 Seiten
Ansätze zur Umsatzsteigerung eines Online-Reiseshops durch Optimierung...
Informatik - Wirtschaftsinformatik
Diplomarbeit, 143 Seiten
Suchmaschinenoptimierung für Unternehmenswebsites
Medien / Kommunikation - Multimedia, Internet, neue Technologien
Praktikumsbericht / -arbeit, 23 Seiten
Manipulation von Suchmaschinen
Medien / Kommunikation - Multimedia, Internet, neue Technologien
Seminararbeit, 26 Seiten
Benefits of recent Project Management Methods and Tools
BWL - Unternehmensführung, Management, Organisation
Diplomarbeit, 122 Seiten
Markt der Standardanwendungssoftware für ERP mit dem Vergleich der kon...
Informatik - Wirtschaftsinformatik
Hausarbeit (Hauptseminar), 26 Seiten
Philipp Wiedmaier hat den Text Relevanzoptimierung und Ranking-Verfahren der Suchmaschine Google veröffentlicht
Philipp Wiedmaier hat einen neuen Text hochgeladen
Google AdWords - Punktgenau und zielgerichtet werben
So nutzen Sie das größte Werbe...
Sabrina Zebisch
Google's Pagerank and Beyond: The Science of Search Engine Rankings
The Science of Search Engine R...
Amy N. Langville, Carl D. Meyer
Länder-Rankings und internationale Wettbewerbsfähigkeit
Eine kritische Analyse
Ulrich Heilemann, Harald Lehmann, Joachim Ragnitz
0 Kommentare