Vom PageRank zum heutigen Google


Seminararbeit, 2016

28 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Motivation

2 Google – Ein Zahlenspiegel

3 Google – Prägende Entwicklungen
3.1 Suchmaschine
3.2 PageRank-Algorithmus
3.3 Weitere Services und Produkte

4 Googles Strategie

5 Diskussion

6 Limitationen

Abbildungsverzeichnis

Abbildung 1: Elemente einer Suchmaschine

Abbildung 2: Architektur der Google Suchmaschine

Abbildung 3: Darstellung eines in sich geschlossenen Netzwerkes mit Verlinkungen

Abbildung 4: Darstellung eines in sich geschlossenen Netzwerkes mit Verlinkungen und Vererbungsfaktoren

Abbildung 5: The 4E’s of Google’s Strategy

Tabellenverzeichnis

Tabelle 1: Iterative Berechnung der PR-Werte für alle Webseiten

Tabelle 2: Anzahl der ausgehenden Links j in Abhängigkeit von der Seite i, Berechnung des Vererbungsfaktors

1 Motivation

Ein präsentes Thema der heutigen Zeit ist „Big Data“, der schnelle Wandel einer sehr großen und rasant wachsenden heterogenen Datenmenge. Allein im World Wide Web kommen zu den 60 Trillionen Webseiten tagtäglich Neue dazu (o.V. o.J.c). Vor allem hier ist die Entwicklung der Datenmenge und -inhalte schwer nachvollziehbar und kontrollierbar.

Das ist nur ein Grund von vielen, die aufzeigen, warum Suchmaschinen im Web notwendig sind. Eine der weltweit bekanntesten und erfolgreichsten davon ist „Google“. 66% der Internet-User weltweit nutzen die Suchmaschine stationär an PCs, 90% mobil (Statista 2016f). Der Bekanntheitsgrad des unumstrittenen Marktführers liegt selbst bei Kindern bei 95%, gefolgt von Yahoo!, welches dagegen nur bei 60% der Kinder bekannt ist (Statista 2015c). Es geht sogar so weit, dass das Wort „googeln“ in die 23. Auflage des Dudens als Synonym für Internet-Suche aufgenommen wurde. Der Begriff „Google“ steht längst nicht mehr nur für eine Suchmaschine. Zahlreiche weitere Produkte und Services sind seit der Gründung 1998 durch Larry Page und Sergey Brin entwickelt worden und haben sich in unserem alltäglichen Leben etabliert. Außerhalb der Suchmaschinentechnologie investiert Google immer weiter in verschiedene Branchen. Der Begriff „Google“ ist in der heutigen Zeit ein abstrakter, tatsächlich ungreifbarer Begriff geworden - Google, ein Unternehmen, welches sich in kürzester Zeit rasant entwickelt und für Außenstehende unkontrolliert wächst und an Macht gewinnt. In dieser Arbeit soll aufgezeigt werden, wie Google sich im Laufe der Zeit als eines der erfolgreichsten Unternehmen in der Technologiebranche und zum natürlichen Monopol unter den Suchmaschinen entwickeln konnte und welche Herausforderungen dem Unternehmen gegenüberstehen.

Die Struktur der Arbeit ist wie folgt aufgebaut:

Im nachfolgenden Kapitel erhält der Leser einen betriebswirtschaftlichen Einblick in das Unternehmen Google Inc. und dessen finanzielle Kennzahlen. Das Kapitel 3 greift prägende Entwicklungen von und für Google auf, die maßgeblich zum Erfolg beigetragen haben. Hier werden besonders die Funktionsweise einer Suchmaschine und der von Larry Page entwickelte PageRank-Algorithmus erklärt. In Kapitel 4 wird Googles Strategie erläutert. Abschließend werden in Kapitel 5 die Herausforderungen für den Weltkonzern diskutiert.

2 Google – Ein Zahlenspiegel

Vom Garagenbüro zum Weltkonzern: Larry Page und Sergey Brin gründeten 1998 mit einem Scheck über 100 000 USD von Andy Bechtolsheim, Co-Founder von Sun Microsystems, die Firma Google Inc. (o.V. 22.10.2015). Sequoia Capital und Kleiner Perkins Caufield & Byers ermöglichten dem Start-Up eine Eigenkapitalfinanzierung von 25 Millionen USD, um die Idee der strukturierten Suche im Web zu fördern. Im Zuge dessen traten die beiden Risikokapitalgeber in den Vorstand von Google ein. Weitere Investoren waren die Stanford University und andere Persönlichkeiten aus der Technologie- und Internetbranche (o.V. 1999).

Seit der Gründung wuchs Google Inc. innerhalb von nur zehn Jahren von zwei auf rund 20 000 Mitarbeiter an, die monatlich neue Dienste, Entwicklungen und Produkte auf den Markt bringen (vgl. Kapitel 3). 2015 arbeiteten weltweit 62 000 Menschen für Google Inc. (Statista 2016b; o.V. 22.10.2015).

Das rasante Wachstum von Google ist auf die signifikante Entwicklung der Werbeumsätze, besonders aus den Haupteinnahmequellen Google AdWords und Google AdSense zurückzuführen. Während sich diese 2001 noch auf 70 Millionen USD beliefen, stiegen sie bis 2015 auf 67,39 Mrd. USD an (Statista 2016c). Allein die Webanwendung Google AdSense machte 2012 mit 3,44 Mrd. USD 27% der Bilanzsumme aus (Dickey 15.03.2013). Im Vergleich dazu warf beispielsweise YouTube 2015 nur etwa 6 Milliarden USD an Gewinn ab (Statista 2016h). Die Umsatzzahlen sind seit 2013 von 55 Milliarden USD innerhalb von 2 Jahren um 20 Milliarden USD gestiegen (Statista 2016d). In den letzten Jahren stiegen die Umsätze nicht mehr so stark an wie zuvor. Dies ist unter anderem auf sinkende Costs-per-Clicks im Werbegeschäft zurückzuführen. Die mobile Branche ist bedeutender geworden als die stationäre, daher wirken sich die günstigeren Werbekosten bei mobilen Anzeigen negativ auf das Wachstum der Umsatzzahlen aus (Statista 2016e; Briegleb 2009). Ein Großteil der Umsätze wird direkt wieder in weitere Innovationen, Entwicklungen und Projekte investiert, um weiterhin den Markt zu dominieren und den Konkurrenten immer mindestens einen Schritt voraus sein zu können.

Am Markenwert gemessen zählt Google mittlerweile nach Apple und vor Microsoft zu den drei wertvollsten Technologieunternehmen (Statista 2015b).

Den Börsengang zögerten die Gründer so lange wie möglich hinaus, um keine betrieblichen Kennzahlen öffentlich bekannt geben zu müssen und den Konkurrenten ihre hohe Rentabilität vorenthalten zu können. Doch am 19. August 2004 wurde Google mit 19 605 052 Stammaktien dann doch zu einer Aktiengesellschaft: Der Wert pro Aktie wurde auf 85 USD notiert (o.V. 22.10.2015; Vise/Malseed 2007). Heute liegt der Kurs bei 656,99 USD (o.V. 2015). Nach einer Datenerhebung von Kleiner Perkins Caufield & Byers beträgt der Börsenwert von Google Inc. 373 Mrd. USD (Statista 2015a).

In Deutschland besitzt Google in verschiedenen Marktsegmenten folgende Marktanteile: Suchmaschinen (91%), Smartphone-Betriebssysteme (77%), Internet-Browser (25%) und Emailkonten (7%) (Statista 2014a). In den USA erzielt der Marktführer unter den Suchmaschinen Google einen Marktanteil von 87,94%, während die Konkurrenten Bing und Yahoo! Search nur 3,61% und 3,43% aller Suchanfragen ausmachten (Statista 2016g). Die Häufigkeit der Seitenaufrufe bietet Google einen hohen ökonomischen Nutzen und dient als Grundlage für eine begehrte Plattform für Werbetreibende, da sie sich an der Anzahl der Endkunden orientieren.

3 Google – Prägende Entwicklungen

Durch welche prägenden Entwicklungen die Suchmaschine Google zum heutigen Global Player Google Inc. geworden ist, wird in diesem Kapitel erläutert. Der Fokus liegt hier auf der Suchmaschine und dem PageRank-Algorithmus, welche maßgeblich zu der schnellen positiven Entwicklung von Google beigetragen haben und immer noch Basis des aktuellen Geschäftsmodells sind.

3.1 Suchmaschine

Lawrence Page und Sergey Brin programmierten während ihres Studiums an der Stanford University die Suchmaschine Google. Diese sollte lediglich den Nutzen haben, den Menschen Wissen strukturiert und kostenlos zur Verfügung zu stellen (Hübener 2009, S.15). Die beiden Gründer haben in ihrer Studienzeit dazu eine wissenschaftliche Arbeit geschrieben, die publiziert auch einigen Konkurrenten als Grundlage diente (Erlhofer 2013, S. 272). Zudem ließ Larry Page 1998 „Method of node ranking in a linked database“ patentieren, in welcher er den Wertigkeitsfaktor in den Suchalgorithmus mit einbindet (Reischl 2008, S. 32). Dieser ermöglichte effizientere Suchergebnisse, als es die Konkurrenz vermochte.

Zunächst sollen der Begriff und die Funktionsweise einer Suchmaschine definiert und erklärt werden. „Suchmaschinen haben die Intention, ihren Benutzern inhaltlich wertvolle und aktuelle Informationen aus dem World Wide Web zu liefern. Um diese Aufgabe erfüllen zu können, müssen sie die im World Wide Web verfügbaren Informationen so akkurat wie möglich indizieren“ (Hübener 2009, S. 9). Der Index von Google misst über 100 Millionen Gigabyte (08.09.2015). Um diesen permanent aktualisieren und erweitern zu können, durchsucht die Suchmaschine das Internet automatisch. Dazu dienen im Allgemeinen folgende vier Komponenten (Langville/Meyer 2012):

1) Crawler Module
2) Indexing Module
3) Query Module
4) Ranking Module

Programme auf Hochleistungsservern, „Crawler“, „Spider“ oder auch „Robot“ genannt, untersuchen die Inhalte des Webs in regelmäßigen Abständen nach der Abundanz der vorkommenden Begriffe. Diese Daten werden gespeichert und ausgewählte Webseiten werden in den Index aufgenommen (Hübener 2009, S. 9).

Das Indexing Module filtert aus allen gespeicherten Daten des Crawlers Schlüsselwörter, Phrasen und Suchbegriffe. Diese werden dann im „inversen Index“ zu den bereits im Lexikon enthaltenen Wörtern ergänzt. Die Daten werden im Datenspeicher, dem sogenannten „Repository“ in eine normalisierte Form transformiert und abgespeichert (Koch 2007, S. 27 ff.).

Das Query Module findet Übereinstimmungen von Wörtern der vom Nutzer gestellten Suchanfrage und den im Index gespeicherten Begriffen. Es sammelt also Seiten, die für die Antwort der Suchanfrage in Betracht kommen könnten.

Um anschließend die Relevanz der Webseiten zu bestimmen, ist das Ranking Module ebenfalls ein essenzieller Bestandteil einer Suchmaschine. Diese Funktion übernimmt bei Google unter anderem der PageRank-Algorithmus. Die Auswertung der Wichtigkeit ist von verschiedenen Faktoren abhängig (Langville/Meyer 2012):

- Content score: Relevanz des Inhalts, bezogen auf die Suchanfrage
- Popularity score: Reputation der Seite, unabhängig von der Suchanfrage

Neben den vier allgemeinen Modul-Komponenten besteht eine Suchmaschine zudem aus einer Datenbank, die die Webseiten des Indexes nachhält, einem Suchmaschinen-Algorithmus (vgl. Kapitel 3.2) und einer Suchmaske (Koch 2007, S. 27). Das Design der Suchmaske von Google ist sehr einfach und benutzerfreundlich gestaltet.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Elemente einer Suchmaschine (Langville/Meyer 2012)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Architektur der Google Suchmaschine (Page/Brin 1998a)

Im Vergleich werden hier die allgemeinen Bestandteile einer Suchmaschine und die Architektur von Google dargestellt.

Googles Ergebnisseite hat einen durchdachten Aufbau: Über der tatsächlich gerankten Trefferliste, den „natürlichen“ Suchergebnissen, stehen die Anzeigen, die Unternehmen über Google AdWords schalten können (vgl. Kapitel 3.3). Rechts daneben findet der Nutzer die Ergebnisse von Google Shopping. Diese für die Werbenden kostenpflichtigen Anzeigen werden strategisch in das erste Blickfeld des Nutzers gerückt, um Klicks und die damit verbundenen Werbeeinnahmen zu generieren. Für über 90% der Nutzer ist laut Suchmaschinen-Experten Christoph Pichler und Herwig Seitz lediglich die erste Ergebnisseite relevant. Während das erste Ergebnis mit einer Wahrscheinlichkeit von etwa 50% aufgerufen wird, wird das zehnte nur zu 3% angeklickt (Reischl 2008, S. 102).

Zusätzlich zu der einfachen Handhabung hebt sich Google von anderen Suchmaschinen besonders durch die schnelle Performance und praktischen Features ab (o.V. o.J.c):

- Bilder- und Sprachsuche
- Google Instant: „Ergebnisse der Suchanfragen werden bereits beim Eintippen angezeigt“
- Korrektur von Rechtschreibfehlern und Anzeige von Alternativen
- Berücksichtigung von Synonymen und der Bedeutung in unterschiedlichen Zusammenhängen
- Google Goggles: Smartphone-App, die mithilfe der Bilderkennung Suchergebnisse zu Scans oder Abbildungen auf Fotos zu erhalten
- Google Scholar: Suchfunktion speziell für wissenschaftliche Inhalte

„Voice Interface for a Search Engine“, die unter anderem von Sergey Brin entwickelte Spracherkennung, wurde schon 2001 beim US-Patentamt eingereicht (Reischl 2008, S. 125). Besonders diese ist sehr datenintensiv. Täglich werden etwa 3 Milliarden Suchvorgänge bearbeitet (08.09.2015; o.V. o.J.c), ob manuell eingetippt oder gesprochen. Das generiert einen enormen Bedarf an Servern, Technologie, Sicherheitssystemen und Dynamik. Die Server von Google sind über die ganze Welt verteilt. Wegen des ungreifbar großen Volumens der Daten, die gespeichert und nachgehalten werden müssen, der dadurch anfallenden Kosten und der schnelle Verfügbarkeit reichen die herkömmlichen Data Warehouse Systeme nicht mehr aus. Internet-Riesen wie Google setzen daher auf neuste Technologien, wie beispielsweise Hadoop, bestehend aus einem distribuierten Datensystem (HDFS) und einem „Parallelisierungs-Framework“ zur „Datenverarbeitung in großen Server-Clustern“ (MapReduce) (Bartel et al. 2014), NoSQL oder andere analytische Datenbanken (Müller 2014).

3.2 PageRank-Algorithmus

Die Nützlichkeit einer Suchmaschine ist abhängig von der Relevanz ihrer Ergebnisse und der Benutzerfreundlichkeit. Die Benutzerfreundlichkeit zeichnet sich durch eine einfache Handhabung sowie ein für den Nutzer hilfreiches Ranking aus.

Ähnlich wie man in wissenschaftlichen Arbeiten die Qualität eines Dokuments nach der Anzahl der Zitationen aus anderen wissenschaftlichen Publikationen bewertet (Vise/Malseed 2007), entwickelten Lawrence Page zur Berechnung der Relevanz einer Webseite zusammen mit Sergey Brin 1998 den PageRank-Algorithmus. Dieser zählt zu den bedeutendsten Algorithmen und hat anfangs maßgeblich zum Erfolg der Suchmaschine Google beigetragen. Page und Brin schreiben in ihrer wissenschaftlichen Arbeit: „PageRank is an attempt to see how good an approximation to ‚importance‘ can be obtained just from the link structure. […] [A] Page has high rank if the sum of he ranks of its backlinks is high. This covers both the case when a page has many backlinks and when a page has a few highly ranked backlinks“ (Page/Brin 1998b).

Der PageRank-Algorithmus unterscheidet sich dahingehend von der Link-Popularität, dass die Wichtigkeit eines Dokuments nicht nur von der Anzahl der Backlinks abhängig ist, sondern viel mehr von der berechneten Relevanz, dem PageRank-Wert. Dieser ist wiederum abhängig vom PageRank der verlinkten Seiten (Backlinks), einem Dämpfungsfaktor und den ausgehenden Links, auf die der eigene PageRank weitervererbt wird. Hinzu kommen noch zahlreiche, unbekannten Faktoren. Dabei wird die Qualität des Inhalts vorerst vernachlässigt (Koch 2007, S. 51).

Die mathematische Funktionsweise des PageRank-Algorithmus wird im Folgenden deduktiv erklärt.

Der PageRank-Wert einer Webseite wird mit einer rekursiven Formel berechnet (Page/Brin 1998a):

Abbildung in dieser Leseprobe nicht enthalten

mit

- PR(A): Der PageRank der Seite A
- PR(Ti): ist der PageRank der Seite Ti, abhängig von Anzahl der Backlinks (eingehende Links) und deren PageRanks; i = [1;n]
- C(Ti): Anzahl aller von der Seite Ti ausgehenden Links
- d: Dämpfungsfaktor [0;1]

Bei der Interpretation der Formel wird deutlich, dass die Vererbung des PageRanks durch den Quotienten C(Ti) gemildert wird. Zwischen der Anzahl der eingehenden Links und des PageRank-Werts besteht ein positiver Zusammenhang: Mit steigender Anzahl der Backlinks, wird ein höherer PageRank vererbt, da die Formel je Backlink um den Faktor d(PR(Ti)/C(Ti) erweitert wird. Dahingegen vererben Seiten mit steigender Anzahl der ausgehenden Links einen geringeren Wert. Hat eine Webseite keine eingehenden Links, so verändert sich der Wert durch Iteration nicht (Erlhofer 2013, S. 274 ff.). „Links, die auf Dokumente verweisen, die selbst keine ausgehenden Links besitzen“, nennt man „Dangling Links“ (Koch 2007, S. 57).

Weil ein Random Surfer von einer Webseite nicht zwangsweise über einen Link auf eine weitere Seite wechselt, sondern auch eigenständig nicht-verlinkte Seiten aufrufen kann, „wird die Wahrscheinlichkeit, mit der ein Surfer ein neues Dokument aufruft, um einen bestimmten Faktor gedämpft“ (Koch 2007, S. 54). Der Dämpfungsfaktor wird in der Praxis oft auf 0,85 gesetzt (Page/Brin 1998a). Dieser Faktor ist auch für die Vererbung eines geringeren, also „gedämpften“, PageRanks an weitere Seiten verantwortlich. Je höher der Wert, „desto wahrscheinlicher ist es, dass der Zufallssurfer [die Links des Dokuments] verfolgt“. Der Faktor (1-d) ist dazu die Gegenwahrscheinlichkeit, also dass der Random Surfer zufällig die Webseite verlässt und eine davon unabhängige andere aufruft (Koch 2007, S. 275).

Das Netzwerk von Webseiten im Internet kann mittels Graphentheorie dargestellt werden. Ein Graph besteht aus einer endlichen Anzahl von Knoten (Webseiten) und Kanten (Links) (Blum 2013, S. 47).

Beispiel:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Darstellung eines in sich geschlossenen Netzwerkes mit Verlinkungen

Abbildung in dieser Leseprobe nicht enthalten

Für das Netzwerk in Abbildung 3 gilt: Der PageRank der Seiten T1, T2 und T3 wird anfangs auf den fiktiven Wert 0,25 gesetzt. Der PageRank der Seite A ist abhängig von den eingehenden Links und deren PageRank-Werte, in diesem Beispiel also nur von T1 und T2. Die Quotienten C(T1) und C(T2) geben an, wie viele Links von der Seite T1, bzw. T2, ausgehen, d.h. auf wie viele Seiten der PR(T1), bzw. PR(T2) aufgeteilt wird. Diese Berechnung führt man nun mit T1, T2 und T3 im gleichen Stil, unter der Verwendung der Initialwerte, durch. Für T3 würde sich dementsprechend ergeben:

Abbildung in dieser Leseprobe nicht enthalten

Für die weitere iterative Berechnung werden die Ergebniswerte der vorherigen Iteration wieder in die ursprüngliche Formel eingesetzt. Die Berechnung innerhalb einer Iteration ist unabhängig von deren Ergebnissen. Daraus resultieren für die bisherigen Rechenschritte und die zweite Iteration folgende Werte:

[...]

Ende der Leseprobe aus 28 Seiten

Details

Titel
Vom PageRank zum heutigen Google
Hochschule
Katholische Universität Eichstätt-Ingolstadt
Note
1,3
Autor
Jahr
2016
Seiten
28
Katalognummer
V379130
ISBN (eBook)
9783668566767
ISBN (Buch)
9783668566774
Dateigröße
886 KB
Sprache
Deutsch
Schlagworte
PageRank, Google, Algorithmus, Ranking, Online, Informatik, Wirtschaftsinformatik, Wirtschaft, BWL, Websiten, Homepages, AdWords, Produkte, Zukunft, Wissen, Ranking von Websiten
Arbeit zitieren
Anja Christina Mutter (Autor), 2016, Vom PageRank zum heutigen Google, München, GRIN Verlag, https://www.grin.com/document/379130

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Vom PageRank zum heutigen Google



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden