Auswertung zeitlicher und räumlicher Aspekte der Informationsausbreitung in der Blogosphäre


Diplomarbeit, 2008

100 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1 Einleitung
1.1 Motivation
1.2 Erläuterung des Problemfeldes
1.3 Ziel und Aufbau der Arbeit

2 Grundlagen und Stand der Forschung
2.1 Bestandteile der Blogosphäre
2.2 Analyse sozialer Netzwerke
2.3 Verwandte Arbeiten

3 Vorüberlegung
3.1 Möglichkeiten der Auswertung von Blogs
3.1.1 Zeitliche Aspekte
3.1.2 Räumliche Aspekte
3.1.3 Community-Extraktion
3.2 Einbindung zusätzlicher Informationsquellen
3.3 Zusammenfassung

4 Umsetzung
4.1 Übersicht
4.2 Web-Crawler
4.3 Datenhaltung
4.4 Auswertungskomponente
4.5 Präsentationskomponente
4.6 Vorstellung des implementierten Systems
4.7 Funktionsweise zentraler Algorithmen
4.8 Zusammenfassung

5 Validierung und Verbesserungsansätze

6 Auswertung gewonnener Informationen
6.1 Einleitung
6.2 Zeitliche Aspekte
6.3 Räumliche Aspekte
6.4 Allgemeine Aspekte
6.5 Zusammenfassung

7 Zusammenfassung und Ausblick
7.1 Zusammenfassung
7.2 Ausblick

A Datenbankschema, UML-Diagramme und Code-Listings

Literaturverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung

1.1 Motivation

Durch Werbebanner auf seinem Blog http://www.basicthinking.de erwirtschaftet Robert Ba- sic, als einer der bekanntesten deutschen Blogger, mit circa 3.500 C pro Monat mittlerweile seinen Lebensunterhalt. Unlängst wurde ihm jedoch ein weiterer Vorteil durch die Einladung eines AutomobilHerstellers bewusst, die er umgehend auf seinem Blog veröffentlichte:

Dear Robert,

To present Alfa Romeo ’ s new small sports car, the MiTo we ’ ve decided to invite a team of international bloggers who are outstanding figures for their intelligent and innovative use of social media. We ’ re particularly impressed with the excellent work you ’ re doing, and the success of Basic Thinking. So we ’ d be extremely pleased if you would like to take part in the presentation of the MiTo. It will take place in Varano, Italy on July 9th and 10th, 2008; your visit would of course be at our expense, including your travel arrangements.[. . . ]1

Anhand dieses Beispiels werden verschiedene Aspekte deutlich: Für viele Blogger strahlt es eine ho- he Attraktivität aus, als Journalisten wahrgenommen zu werden und entsprechende Privilegien, wie die exklusive Einladung zu Produktpräsentationen auf fremde Kosten zu erfahren. Auf der anderen Seite werden sie dafür zugleich von anderen Bloggern kritisiert, dadurch ihre Unabhängigkeit zu verlieren und käuflich zu werden. Diese Unabhängigkeit wurde lange Zeit als zentrales Charakteristikum der Blogo- sphäre gesehen. Aber auch die Werbewirtschaft erkennt die Blogosphäre mittlerweile als Plattform für virales Marketing und spricht gezielt die Autoren von populären Blogs an, um diese von ihren Produk- ten zu überzeugen und somit die als überwiegend glaubwürdig eingestufte Berichterstattung auf Blogs anzustoßen.

Die drei genannten Benutzergruppen haben verschiedene Bedürfnisse. Autoren, die zu den bekanntesten Bloggern gehören wollen, suchen Mittel und Wege, um populär zu werden, indem sie zunächst An- schluss an eine geeignete Community suchen und anschließend durch entsprechende Aktionen immer mehr Kommunikation auslösen. Betreiber von Blogs, die diesen nicht unbedingt professionell führen möchten, suchen ebenfalls Communities, mit denen sie kommunizieren können und die sich mit The- men aus ihrem Interessensgebiet beschäftigen. Natürlich möchte auch die Werbeindustrie erfahren, wer die Meinungsmacher der Blogosphäre sind, wo diese herstammen und mit welchen Themen sie sich beschäftigen.

Momentan existierende Lösungen helfen nur bedingt. So müssen Blogger durch Versuch und Irrtum herausfinden, wie sie die größtmögliche Reaktion erfahren. Methoden zum Auffinden von Communities beschränken sich derzeit darauf, nach Themen in Blogsuchmaschinen wie Google Blogsearch2 zu suchen und durch Glück auf eine passende Community zu stoßen. Populäre Blogs lassen sich zwar durch so genannte Blog-Charts finden, die von einigen Anbietern erstellt werden, diese geben aber keine Garantie für ihre Unabhängigkeit und die Korrektheit der Ergebnisse. Hinzu kommt, dass diese Statistiken keine inhaltliche Ausrichtung der Blogs berücksichtigen und daher durch den Besucher erst angelesen werden müssen, denn nur selten verrät der Titel des Blogs etwas über dessen Inhalt.

Diese Arbeit soll ein erster Schritt zur Lösung der angesprochenen Probleme sein und mit der Ausarbei- tung der notwendigen Grundlagen für ein tieferes Verständnis des Mediums sorgen. Neben der Angabe des zeitlichen Verhaltens der Blogosphäre sollen auch räumliche Aspekte beachtet werden, um eine Verknüpfung der virtuellen Blogosphäre mit der realen Welt zu schaffen und dadurch das Potential für feingranulare Analysen auszuschöpfen. Hieraus lassen sich Systeme ableiten, die den Interessen der oben genannten Gruppe gerecht wird.

1.2 Erläuterung des Problemfeldes

Das World Wide Web ist heute das erfolgreichste Hypertext-System, dessen Konzepte erstmalig in [Bus45] beschrieben wurden und bezeichnet eine nicht-lineare Organisation von Wissenseinheiten. Die- se werden durch Knoten repräsentiert und durch logische Verbindungen zu einem assoziativen Netz- werk verknüpft. Im Fall des WWW entspricht dies den durch unidirektionale Hyperlinks verbundenen Dokumenten, die heute neben rein textuellem auch multimedialen Inhalt tragen können und daher als Hypermedia-Systemen bezeichnet werden. Im Allgemeinen erlauben Hypertext-Systeme die Differen- zierung von Links, die bidirektionale Ausrichtung und die Ergänzung um weitere Parameter, welches bislang im World Wide Web nach den Spezifikationen des W3C nicht vorgesehen ist.

Populäre Suchmaschinen wie Google, MSN oder Yahoo beurteilen die Relevanz und Qualität von Web- seiten durch die Anzahl der Hyperlinks, die diese Webseite referenzieren. Differenzierte Modelle berück- sichtigen hierbei noch weitere Parameter, wie beispielsweise die Bewertung der Seite, von der ein Link ausgeht [SB98]. Dieser Ansatz hat sich für das aus Dokumenten bestehende Web bewährt, ist jedoch für Soziale Netzwerke im Wesentlichen inadäquat, da die dort vorherrschende Semantik der Knoten und Kanten nicht entsprechend beachtet wird.

Soziale Netzwerke existieren seitdem Menschen miteinander interagieren. Der Begriff wurde jedoch erst mit dem Entstehen von virtuellen Sozialen Netzwerken im Internet der Allgemeinheit bekannt. Für Soziologen sind über das Internet agierende Soziale Netzwerke interessant, da sich Beobachtungen von großen Gruppen automatisieren und damit ressourcenschonend durchführen lassen. Bisherige Analysen waren aufgrund des hohen Aufwandes bei der Beobachtung Sozialer Netzwerke auf eine relativ kleine Anzahl beteiligter Knoten beschränkt. Im World Wide Web existieren offene und beschränkte Soziale Netzwerke. Mit Offenheit ist der freie Zugang gemeint, der ohne eine vertraglich geregelte Mitgliedschaft auskommt. Zu den populärsten geschlossenen Sozialen Netzwerken zählen in Deutschland StudiVZ3 und Xing4. Analysen dieser Netzwerke sind jedoch ohne die Zustimmung deren Betreiber nicht möglich und werden von diesen aktiv verhindert. Ein deutlich größeres und offenes Soziales Netzwerk bildet die Blogosphäre [TF07], die sich weltweit erstreckt. Aufgrund dieser Vorteile eignet sich die Blogosphäre als Forschungsobjekt, wobei sich die hier gewonnen Erkenntnisse prinzipiell auf geschlossene Soziale Netzwerke übertagen lassen.

Innerhalb von Netzwerken bilden sich Untergruppen aus, die besonders häufig miteinander interagie- ren. Im Fall der Blogosphäre zeigen sich Interaktionen vor allem in der Form von Reaktionen, das heißt die Betreiber von Blogs antworten auf die Beiträge anderer Betreiber in Form von Kommentaren oder durch das Aufgreifen in eigenen Beiträgen. In der Blogosphäre lassen sich vier verschiedene Arten der Interaktion feststellen: Die zuvor genannte Kommentarabgabe und das klassischen Verlinken auf fremde Beiträge, sowie das Führen einer Liste von Links zu Blogs, zu denen eine engere Beziehung besteht und die Möglichkeit der Trackback- bzw. Pingback-Links. Die zuletzt genannte Form von Links über- tragen das Prinzip der bidirektionalen Links auf die Möglichkeiten des World Wide Web, in dem nur unidirektionale Links möglich sind. Hierdurch wird es dem Ziel eines Links ermöglicht, über die Refe- renzierung durch einen anderen Blog in Kenntnis versetzt zu werden. Ein besonderes Charakteristikum von Weblogs ist die Tatsache, dass die meisten Blogs von einem einzelnen Person betrieben werden und somit eins-zu-eins-Zuordnung vorliegt. Durch deren Wohnort wird eine Verbindung aus der virtuellen Blogosphäre in die reale Welt geschaffen und Blogs dadurch verortbar. Im Gegensatz zu Dokumenten im World Wide Web haben sämtliche in der Blogosphäre veröffentlichten Beiträge einen zeitlichen Bezug, der im Blog angegeben wird. Mittels der Auswertung der Zeitangaben lassen sich Reaktionen sehr genau nachvollziehen und in Verbindung mit den Ortsinformationen in einen räumlich-zeitlichen Bezug setzen, welches detaillierte Suchanfragen erlaubt.

Neben der Unterscheidung der Linksemantik sollen auch die Orts- und Zeitangaben die Auswertung von Bloginhalten verbessern und ergänzend wirken. Um die Art von möglichen Suchmaschinenanfragen zu illustrieren, seien an dieser Stelle einige beispielhaft aufgeführt:

- „Zeige Blogs aus Tibet, die besonders häufig aktualisiert werden“
- „Zeige chinesische Blogs, die eine hohe Anzahl von Kommentaren tibetischer Blogger enthalten“
- „Zeige Blogs zum Thema Olympia, sortiert nach der Anzahl von Kommentaren, die von häufig verlinkten Blogs stammen“
- „Zeige weltweit existierende Communities, die über das Thema Pressefreiheit diskutieren“

Anhand dieser Beispiele wird deutlich, wie leistungsschwach heutige Suchmaschinen in Bezug auf se- mantische Aspekte sind, da hier nur nach Schlagworten gesucht werden kann, die auf Webseiten mit einer bestimmten Frequenz auftauchen. Hauptgrund hierfür ist das Fehlen maschinell auswertbarer An- notationen im klassischen World Wide Web. Durch eine differenziertere Betrachtung des Webs durch die Suchmaschinen sind semantische Informationen jedoch aus Teilbereichen, wie der Blogosphäre, mit relativ simplen Verfahrensweisen extrahierbar. Voraussetzung hierfür ist allerdings die Loslösung von dem Modell, dass die im WWW auffindbaren Seiten undifferenziert analysiert werden.

Die oben gemachten Beispiele zu möglichen Suchanfragen zeigen, welches weltweite Interesse gerade in Krisensituationen an Blogs besteht, deren Autoren über ihre eigenen Erfahrungen vor Ort berichten. Bislang gelangen diese Weblogs an die Öffentlichkeit, indem viele Blogger diese verlinken und dadurch ein hohes Ranking in den Suchmaschinen entsteht, welches jedoch stark dem Zufall überlassen und auf jeden Fall mit einem zeitlichen Verzug versehen ist.

Der Erfolg eines Blogs hängt stark damit zusammen, ob andere Blogger diesen lesen und darauf reagie- ren. Für die Autoren von Blogs ist es sehr motivierend, den Blog weiter zu führen, wenn ihre Beiträge auf das Interesse anderer Menschen stoßen. Daher ist es vor allem für neue Mitglieder der Blogosphäre wichtig, Communities zu finden, die dem Themenbereich des eigenen Blogs entsprechen und es dadurch zum Meinungs- und Erfahrungsaustausch kommt. Durch die räumlich-zeitliche Zusatzinformation lässt sich die passendste Community sehr viel schneller finden, da sich hierdurch die Herkunft der anderen Mitglieder auf eine bestimmte Region und Sprache einschränken lässt. Es lassen sich aber auch beson- ders aktive Communities finden, deren Mitglieder ihren Blog in der jüngsten Vergangenheit aktualisiert haben und Communities mit nur noch sehr wenig Interaktion in den Suchergebnisse zurückstufen. Die Existenz einer Community kann zudem als Qualitäts-Indikator aufgefasst werden, da die gegenseitige Reaktion zwischen Blogs mit sinnvollen Beiträgen als wahrscheinlicher gilt, als Beiträge von Blogs, die auf kein Interesse stoßen.

1.3 Ziel und Aufbau der Arbeit

Das Ziel der Arbeit ist es, Möglichkeiten der automatisierten Auswertung von räumlichen und zeitlichen Aspekten in der Blogosphäre zu untersuchen, so dass diese als Grundlage für weitere Untersuchungen, aber auch für die Ableitung konkreter Systeme dienen können. Des Weiteren sollen Wege gefunden werden, wie die Qualität von Weblogs und extrahierter Untergruppen bewertet werden kann.

Zunächst werden in Kapitel 2 die Bestandteile der Blogosphäre definiert. Für tiefgreifende Analysen wird das notwendige soziologische Fachvokabular erläutert, um Parallelen zwischen der Blogosphäre und Sozialen Netzwerken aufzugreifen und dort etablierte Methoden anzuwenden. Um einen Einblick in den momentanen Stand der Forschung zu geben, werden vergleichbare Arbeiten vorgestellt und daraus Verbesserungsansätze abgeleitet. Kapitel 3 beschäftigt sich mit den Möglichkeiten der automatisierten Auswertung von Blogs, insbesondere wie räumliche und zeitliche Informationen aus semistrukturierten Daten gewonnen werden können. Ferner wird das Prinzip der Community-Detektion erläutert und es wird gezeigt wie die Vergleichbarkeit von Weblogs sprachübergreifend realisiert werden kann. Nach den theoretischen Überlegungen wird in Kapitel 4 das entworfene modulare Konzept vorgestellt und auf die einzelnen Module Web-Crawler, Auswertungskomponente, Präsentationskomponente und Datenhaltung eingegangen. Ebenfalls in diesem Kapitel wird auf die Umsetzung der entworfenen Anwendung in C# eingegangen und die Funktionsweise zentraler Algorithmen schematisch erläutert. Im fünften Kapitel werden die gewonnen Daten ausgewertet und in Zusammenhang gebracht. Dabei zeigt sich, dass das entworfene Konzept funktionsfähig ist und die Grundlage für tiefgreifende Analysen bietet. Hiervon werden vor allem zeitliche und räumliche Aspekte aufgegriffen, sowie signifikante allgemeine Aspekte vorgestellt. Den Abschluss bildet Kapitel 6. Darin werden die wichtigsten Ergebnisse zusammengefasst und Ansatzpunkte für weitere Arbeiten aufgeführt.

2 Grundlagen und Stand der Forschung

Dieses Kapitel dient dem Aufbau des notwendigen Fachvokabulars. Da sich zwischen der Blogosphäre und der Analyse Sozialer Netzwerke viele Parallelen finden lassen, werden wichtige Aspekte aus der Soziologie vorgestellt. Den Abschluss bildet die Vorstellung verwandter Arbeiten, deren Inhalt diskutiert und hieraus Verbesserungsmöglichkeiten abgeleitet werden.

2.1 Bestandteile der Blogosphäre

Aufgrund der Tatsache, dass in der Literatur verschiedene Definitionen im Zusammenhang mit Weblogs zu finden sind, werden an dieser Stelle, die für die Arbeit relevanten Begriffe festgelegt:

Blog: Ein Blog bezeichnet ein auf einer Webseite geführtes Publikationsmedium, welches kategorisierte Einträge in umgekehrt chronologischer Reihenfolge enthält und in der Regel durch die Möglichkeit der Abgabe von Leser-Kommentaren zum vernetzten Kommunikationsmedium wird.

Die derzeit im World Wide Web unterscheidbaren Ausprägungen von Blogs machen es schwierig, diese zu charakterisieren, zumal der Evolutionsprozess durch die technische Entwicklung noch immer nicht ab- geschlossen ist. Was 1995 als einfaches Online-Tagebuch begann, erlebte ab 1999 ein starkes Wachstum und steht seit 2001 ebenfalls im medialen Interesse. Der Begriff „Weblog“ ist ein Kunstwort, das sich aus den Worten „World Wide Web“ und „Logbuch“ zusammensetzt und damit auf seine ursprüngliche Funk- tion hinweist. Heute wird überwiegend die Kurzform „Blog“ verwendet. Die überwiegend statischen Webseiten zur Jahrtausendwende erlaubten im Allgemeinen keine direkte Kommunikation zwischen den Autoren und Lesern von Webseiten, wie dies heute möglich ist, weshalb häufig ein Logbuch der besuch- ten Webseiten auf der eigenen Internetpräsenz geführt wurde. Mit den technischen Möglichkeiten des Web 2.0 erweiterten sich die Einsatzfelder und Umsetzungen von Blog-Systemen, sodass diese heute unter anderem zur Weitergabe von Neuigkeiten in regelmäßigen Abständen, dem Austausch von Wissen, der Präsentation eigener Arbeiten und Publikationen, dem Aufbau und der Pflege persönlicher Kontakte, als Diskussionsplattform und als Sammlung von kommentierten Weblinks verwendet werden. So veröf- fentlichen die Autoren von Weblogs, die so genannten Blogger, neben reinen Textinhalten mittlerweile multimedialen Inhalt wie Bilder und Videos. Hierdurch wird es Nutzern ohne technischen Hintergrund ermöglicht, Online-Journalismus zu betreiben. Durch die Massenmedien werden dabei besonders spekta- kuläre Ereignisse, die zuvor durch diese Form des „Graswurzel-Journalismus“1 bekannt wurden, immer häufiger aufgegriffen.

Die Qualität von Blogs ist linguistisch als auch inhaltlich sehr heterogen und hängt vor allem mit der Nutzungsart zusammen. So verwenden viele Journalisten einen Blog als Sprachrohr, welches vollständig unter eigener Kontrolle steht und nicht redaktionellen Einflüssen ausgesetzt ist. Daneben werden Blogs von vielen Heranwachsenden geführt, die über ihre persönlichen Gedanken und Erfahrungen berichten und Blogs zum Auf- und Ausbau von Freundschaften verwenden.

Technisch gemeinsam ist allen Blogs, dass jeder Eintrag mit einem Zeitstempel versehen wird, der ei- ne chronologische Anordnung ermöglicht und dadurch jedem Blog eine Ordnungsstruktur aufzwängt. Neben der zeitlichen Anordnung haben die Autoren die Möglichkeit, ihre Beiträge selbst definierten Ka- tegorien zuzuweisen, wodurch die Blogs sehr einfach zu durchsuchen und durch eine Verschlagwortung der einzelnen Beiträge diese innerhalb der Blogs leicht aufzufinden sind. Basierend auf den Zeitstempeln wird die überwiegende Zahl von Blogs zusätzlich über XML-Feeds veröffentlicht, die von den Lesern abonniert werden können, sodass diese automatisch über Neuigkeiten auf abonnierten Blogseiten infor- miert werden und nur bei Interesse am Thema die Seite besuchen müssen. Es hat sich dabei die Verwen- dung des RSS 2.0 und des Atom-Formates durchgesetzt, welche durch die meisten Blogging-Systeme vollautomatisch erstellt und veröffentlicht werden.

Das Erstellen und Pflegen eines Blogs bedarf keiner technischen Fertigkeiten und ist mit der Bedienung eines Texteditors vergleichbar, da die stark verbreiteten Blogging-Systeme als einfaches Content Ma- nagement System funktionieren, welches dem Nutzer die Aufgabe der HTML-Editierung abnimmt und durch die Bereitstellung einer Auswahl von Templates die visuelle Gestaltung des Blogs stark verein- facht. Bei der Erstellung eines Blogs hat der zukünftige Autor die Wahl zwischen drei Realisierungs- möglichkeiten: Zum einen kann er das Blogsystem vollständig selbst entwerfen, warten und auf seinem eigenen Webspace zum Einsatz bringen, wobei die Implementierung sehr häufig mit PHP2 und My- SQL3 realisiert wird. Dieses setzt allerdings relativ hohe technische Kenntnisse voraus. Der Vorteil die- ses Aufwandes ist jedoch die vollständige Selbstbestimmung bei der Implementierung von technischen Eigenschaften des Blog-Systems. Mit weniger Aufwand ist die Installation eines fertigen Bloghosting- Systems auf dem eigenen Webspace verbunden, welches zum Großteil kostenfrei bezogen werden kann und häufig in einer Community weiterentwickelt sowie mit neuen Features versehen wird. Völlig ohne technische Fähigkeiten kann ein Blog jedoch bei einem Blog-Hoster eingerichtet werden, welches in der Regel kostenlos möglich, beziehungsweise erst bei der Nutzung von Premium-Diensten mit geringen Kosten verbunden ist. Dem Prinzip der einfachen Verwendbarkeit verdankt das Blogging-Phänomen seinen Erfolg, wie es allgemein bei Web 2.0 Techniken beobachtet werden kann.

Aufgrund der vorhandenen Schwierigkeiten bei der statistischen Erfassung der gesamten Blogosphäre kann den Angaben von Webdiensten, wie beispielsweise Technorati4 nur bedingt Glauben geschenkt werden, da ein hoher Anteil der Blogs nicht mehr gepflegt wird, beziehungsweise die Erfassung des Blogs die Anmeldung des Bloggers bei einem solchen Dienst voraussetzt. Laut eigenen Angaben ana- lysiert Technorati derzeit die Aktualisierungen von über 90 Millionen Blogs. In der Literatur bis 2005 finden sich Angaben zur halbjährlichen Verdopplung der so genannten Blogosphäre, wobei dies nicht durch belegbare Auswertungen untermauert wird und inzwischen deutlich geringer sein sollte (Verglei- che: [KBN07] und[BCKT07]). Es kann jedoch davon ausgegangen werden, dass weltweit mehrere Mil- lionen Blogs aktiv genutzt werden.

Neben der bereits vorhandenen Kommentarfunktion, die durch die Blogautoren eingeschränkt werden kann, verwenden Blogs eine weitere Technik, die sie miteinander verbindet. Durch so genannte „Track- backs“ und „Pingbacks“ wird der Autor eines referenzierten Blogs über die Bezugnahme auf einen Bei- trag durch einen anderen Blogger in Kenntnis gesetzt. Hierdurch wird die Ausbildung von Communities gefördert und der Leser auf thematisch verwandte Beiträge aufmerksam gemacht. Dies wird bei Pingback durch einen XML-RPC-Call5 realisiert, wobei auch hier die technischen Details den Bloggern verborgen bleiben und sich für diese beispielsweise als Hyperlink darstellen. Für weitergehende Ausführungen zur Funktionalität sei auf die Entwicklerdokumentation von Trackback6 sowie das Whitepaper von Ping- back7 verwiesen.

Viele Autoren definieren auf ihrem Weblog eine Liste aus Hyperlinks zu Blogs, mit denen Sie sich besonders verbunden fühlen, die als Blogroll bezeichnet wird. Dem Leser soll es hierdurch ermöglicht werden, den Blog anhand der Blogroll besser einschätzen zu können sowie eine Empfehlung von lesenswerten Blogs zu erhalten. Ob sich die hier verlinkten Blogs zur Erkennung von Communities verwenden lassen, ist zu untersuchen, da zu befürchten ist, dass hier ebenfalls Blogs von Personen aus dem persönlichen Umfeld aufgeführt werden, die jedoch thematisch keinerlei gegenseitige Bezüge aufweisen. Es ist jedoch nicht auszuschliessen, dass auch eine Community-Erkennung aufgrund der in der Blogroll angegeben Kontakte zu akzeptablen Ergebnissen führen kann.

Blogosphäre: Im Allgemeinen wird unter dem Begriff Blogosphäre die Gesamtheit aller Blogs und ihrer Verbindungen verstanden, wodurch sowohl das Kommunikationsmedium, als auch das technische Medium gemeint ist.

Ursprünglich durch den Autor Brad L. Graham in seinem Blog scherzhaft verwendet, wurde der Be- griff rasch durch andere Blogger aufgenommen und findet mittlerweile massenmediale und akademische Verwendung. Dabei setzt sich das Kunstwort aus „Blog“ und „Logosphäre“ zusammen, wobei verein- zelt auch das Wort „Noosphäre“ als Wortbestandteil aufgezählt wird und die Phase der geistigen Ent- wicklung gemeint ist, mit der die Menschheit zu einem Geist zusammen wächst. Weblogs sind ein sehr offenes Publikationsmedium, da diese weitgehend unabhängig von Finanzsituation, Standort und Kon- takten sind und aufgrund der möglichen Anonymität sowie der fehlenden Zensur, Meinungen ungefiltert veröffentlicht werden können. Es muss jedoch erwähnt werden, dass nicht alle Bevölkerungsgruppen gleichermaßen Bestandteil der Blogosphäre sind, da die Teilnahme einen Internetzugang voraussetzt. Zudem ist bekannt, dass es beispielsweise in China immer wieder zu Verhaftungen aufgrund staatskri- tischer Äußerungen in der Blogosphäre kam. Trotz der Kritik ist die Blogosphäre für Soziologen und Demographen, aber auch für die Marktforschung von hohem Interesse, da sich durch computergestützte Analysen Erkenntnisse mit vertretbarem Aufwand gewinnen lassen.

Zwischen den einzelnen Bloggern bilden sich durch das gegenseitige Kommentieren von Blogbeiträgen relativ schnell Gruppen aus, die regelmäßig die Beiträge anderer Gruppen-Mitglieder lesen und kom- mentieren. Durch die Mitgliedschaft von Bloggern in mehrerer dieser Verbünde, formt sich ein weltum- spannender Graph aus einzelnen Gruppen. Es sind jedoch nicht alle Blogs Teil einer Gruppe, da dies die aktive Nutzung des dynamischen Mediums voraussetzt, in dem Verbindungen so rasch zerfallen können, wie sie aufgebaut wurden, wenn die Linkbeziehungen nicht regelmäßig aufgefrischt werden.

In dieser Arbeit wird unter Blogosphäre die Menge der Blogs verstanden, die Teil des weltumspannen- den Graphen sind. Hierdurch lässt sich die Menge der Blogs auf die aktiv genutzten beschränken, und verwaiste Blogs, die nicht mehr gepflegt werden, ausschließen. Daher werden in der späteren Verar- beitung nur so genannte Überträger8 berücksichtigt, Isolatoren, Transmitter und Empfänger hingegen nicht. Unter Aktivität wird eine regelmäßige Form der Kommunikation verstanden, das heißt ein aktives Reagieren auf Beiträge anderer Nutzer. Als Kriterium für die Mitgliedschaft an einer Community wird vorausgesetzt, dass zwei Blogs durch die Kommentarfunktion, dem Erstellen von Hyperlinks auf andere Weblogs oder dem Nutzen der Trackback/ Pingback-Funktionalität mit einer definierten Häufigkeit, in- nerhalb eines Zeitintervalls, aufeinander reagiert haben. Blogosphäre wird somit nicht als die Gesamtheit aller Blogs aufgefasst, sondern als Gesamtheit aller aktiven Verbindungen. Daher trägt diese Definition der Wortherkunft aus den Begriffen „Logosphäre“ und „Noosphäre“ eine höhere Bedeutung zu, da der Kommunikationsaspekt besonders hervorgehoben wird.

2.2 Analyse sozialer Netzwerke

Methoden der Soziologie zur Analyse Sozialer Netzwerke eignen sich aufgrund der Eigenschaften der Blogosphäre sehr gut, um diese zu untersuchen. Als endlicher, gerichteter Graph betrachtet, entsprechen die einzelnen Weblogs der Blogosphäre den Knoten des Graphen. Sämtliche Beziehungen zwischen den Blogs, die in der Blogosphäre durch Links verkörpert werden, entsprechen dessen Kanten. Soziale Netzwerke sind als Netze definiert, mit denen Interaktionsgeflechte beliebigen Typs abgebildet werden können. Dabei ist die Existenz einer relationalen Information eine kritische und definierende Eigenschaft eines Sozialen Netzwerkes. Die Grundlagen bei der Erforschung Sozialer Netzwerke wurden zwischen 1940 und 1980 erarbeitet und beeinflussen Teilbereiche der Informatik bis heute. Schon das Konzept der Memex, welches Vannevar Bush [Bus45] schon 1945 vorstellte und deren netzartige Struktur durch logische Verbindungen zwischen Wissenseinheiten gebildet wird, beinhaltete die Idee des Hypertextes. Soziale Netzwerke bilden sich in vielen unterschiedlichen Sachgebieten aus und werden neben der So- ziologie im Bereich der Ethnologie, Sozialpsychologie, Kommunikationswissenschaft, Computerphysik und Spieltheorie erforscht. In der Informatik findet sie eine starke Anwendung im Bereich der Webo- metrie, der Forschungsausrichtung, die mit Hilfe von Messungen die Struktur des World Wide Webs untersucht und ihre kommerzielle Anwendung vor allem bei Suchmaschinen findet. Da die vorliegende Arbeit die Struktur der Blogosphäre unter Berücksichtigung des theoretischen Hintergrundes Sozialer Netzwerke untersucht, soll an dieser Stelle das soziologische Fachvokabular [WF94] im Bezug zur Blo- gosphäre vorgestellt werden:

Akteur (engl. actor): Unter einem Akteur wird eine soziale Entität verstanden, womit diskrete, individuelle, gesellschaftliche oder sozialgemeinschaftliche Einheiten gemeint sind. Auf die Blogosphäre bezogen, entspricht der Akteur dem Weblog, da er sich gegenüber anderen Blogs abgrenzt und über die URI (Uniform Resource Identifier) eindeutig unterscheiden lässt. Bei der Darstellung als Graph entspricht der Akteur einem Knoten. In Abhängigkeit von der Anzahl der ein- und ausgehenden Verbindungen zu anderen Knoten werden diese differenziert bezeichnet:

- Isolator (engl. isolator), wenn der Akteur weder eingehendende, noch ausgehende Verbindungen besitzt.

Abbildung in dieser Leseprobe nicht enthalten

In der Blogosphäre existieren Isolatoren, diese werden durch einen Crawler jedoch nicht aufgefunden, da keine Links existieren, die zu diesem führen.

- Transmitter (engl. transmitter), wenn der Akteur keine eingehende, aber mindestens eine ausge- hende Verbindung besitzt.

Abbildung in dieser Leseprobe nicht enthalten

Ein Blog wird beispielsweise durch die Abgabe eines Kommentars zum Transmitter, sofern er durch keinen anderen Blog verlinkt ist und im Kommentar seine URI angibt.

- Empfänger (engl. receiver), wenn der Akteur mindestens eine eingehende, aber keine ausgehende Verbindung besitzt.

Abbildung in dieser Leseprobe nicht enthalten

Ein Blog wird durch den Empfang eines Kommentars mit URI-Angabe zum Empfänger, sofern keine ausgehenden Hyperlinks vorliegen.

- Überträger (engl. carrier), wenn der Akteur mindestens eine eingehende und mindestens eine ausgehende Verbindung besitzt.

Abbildung in dieser Leseprobe nicht enthalten

Dies ist die häufigste Form von Blogs, die in der Blogosphäre aufgefunden werden können. Sie entsteht, wenn andere Weblogs einen Blog referenzieren und dieser wiederum andere verlinkt.

Relationale Verbindung (engl. relational tie): Relationale Verbindungen vereinen ein Paar von Ak- teuren und spezifizieren durch ihre Ausprägung die Art des Akteurs wie oben beschrieben. In der Dar- stellung als Graph entspricht der relationalen Verbindung die Kante. Da bei der Untersuchung der Blogo- sphäre die Anzahl der ein- und ausgehenden Verbindungen eine bedeutende Rolle spielt, wird außerdem nach der Ausrichtung der Verbindung und angehängten Attributen der Verbindung unterschieden. Im graphentheoretischen Zusammenhang wird entsprechend zwischen gerichteten und gewichteten Graphen unterschieden. Bei den Untersuchungen dieser Arbeit werden verschiedene Klassen von relationalen Ver- bindungen zwischen den Blogs differenziert:

- Hyperlinks in einem Blogbeitrag zu einem anderen Blog
- Hyperlinks im Autorenfeld von Kommentaren zum Blog des Autors
- Pingback- / Trackbacklinks
- Blogrolllinks

Zusätzlich werden die Häufigkeit und die angegebene Uhrzeit der Erstellung des Hyperlinks festgehalten, sofern diese Daten vorliegen.

Relation (engl. relation): Soziologen verstehen unter einer Relation die Beziehung zwischen beliebigen Akteuren, die vorhanden oder aber nicht feststellbar sein können. Sie stellt somit den allgemeinen Fall der relationalen Verbindung dar und umfasst im Gegensatz zu dieser auch transitive Beziehungen. Zwischen Akteuren sind unterschiedliche Relationen möglich; es werden jedoch bei Untersuchungen ausschließlich fest definierte Arten von Relationen zwischen einer definierten Menge von Akteuren untersucht. Im Bezug zur Untersuchung der Blogosphäre bedeutet dies, dass nur diejenigen Blogs, die nach der Definition der Blogosphäre zu dieser gehören, untersucht werden und durch die oben aufgeführten relationalen Verbindungen miteinander in Beziehung stehen.

Dyade (engl. dyad): Die Dyade benennt ein Gruppenmodell mit Beziehung zwischen zwei Akteuren und ist eine Eigenschaft von beiden Akteuren. Daher ist sie eine Einheit der Analyse, insbesondere der statistischen Analyse. In der Blogosphäre lassen sich Dyaden durch gegenseitige Links zwischen zwei Blogs identifizieren und sind bei der Identifizierung von Communities tragender Bestandteil.

Triade (engl. triad): Mit Triade bezeichnen Soziologen ein Gruppenmodell zur Abgrenzung des Mo- dells der Dyade. Viele soziale Beziehungen können in der Dyade nicht auftreten, sondern sind erst in Triaden möglich. Dazu zählen die Rollen des Unparteiischen, des Vermittlers, des lachenden Dritten und die Figur des „Teile und Herrsche“. Nach Georg Simmel, der die triadische Beziehung zu Beginn des 20. Jahrhunderts erforschte, lassen sich alle Beziehungen zwischen mehr als drei Teilnehmern auf die Triade zurückführen. Für die Untersuchung der Blogosphäre lässt sich daraus ableiten, dass die Berechnungs- modelle zur Erkennung von Communities mit den Einheiten Dyade und Triade bedeutend vereinfacht werden, als bei Berücksichtigung von theoretisch unendlich vielen Gruppenmodellen.

Gruppe (engl. group): Unter einer Gruppe wird eine Sammlung von Akteuren verstanden, deren Ver- bindungen untersucht werden sollen. Hierzu müssen die Akteure mehr oder weniger stark miteinander verbunden sein. Somit besteht die Gruppe aus einer endlichen Menge von Akteuren, die als endliche Menge von Individuen betrachtet und mit Methoden der Netzwerkanalyse untersucht wird. Nach Was- sermann [WF94] wird grundsätzlich von endlichen Mengen ausgegangen, da die Berechnungsmetho- den nicht für unendliche Mengen definiert sind. Im Bezug zur Untersuchung der Blogosphäre bedeutet dies, dass die Untersuchung nur für einen festgelegten Teilbereich der Blogosphäre durchgeführt werden kann, der im Vorfeld abgegriffen wurde. Aufgrund der hohen Dynamik beim Entstehen und Verwaisen von Blogs lässt sich hierdurch begründen, weshalb niemals die gesamte Blogosphäre untersucht werden kann, sondern immer nur fest definierte Ausschnitte, die repräsentativ für die vollständige Blogosphäre stehen.

Untergruppe (engl. subgroup): Untergruppen sind Teilmengen der Akteure einer Gruppe und ihrer Beziehungen. Dabei können beliebige Akteure aus der Gruppe in die Untergruppe aufgenommen werden. Bei der Untersuchung der Blogosphäre ist es eine bedeutende Aufgabe, die Untergruppen der Blogosphäre zu erkennen, die allgemein als Communities bezeichnet werden. Falls die Anzahl der Akteure in der Gruppe für die Berechnung ihrer Eigenschaften zu umfangreich ist, muss eine repräsentative Untergruppe bestimmt werden. Um Aussagen über die Eigenschaften eines Sozialen Netzwerkes machen zu können, werden verschiedene Faktoren berechnet, die vor allem den Umfang und die Dichte des Netzwerkes sowie die Qualität der Beziehungen beschreiben.

Zur Beschreibung der Sozialen Netzwerke bedient sich die Soziologie drei unterschiedlichen Darstel- lungsweisen, die entsprechend der zweckmäßigsten Eignung eingesetzt werden. Graphentheoretische Darstellungen (Abbildung 2.2) finden meist dann ihren Einsatz, wenn die Existenz von Relationen zwi- schen Akteuren graphisch dargestellt werden sollen. Durch das Folgen der Verbindungslinien zwischen den Knoten durch den Lesenden einer Graphendarstellung, gelingt es diesem, sich bei einer überschauba- ren Anzahl von Akteuren rasch ein mentales Modell aufzubauen. Die soziometrische Darstellungsweise (Abbildung 2.1) bedient sich der Beschreibung der Relationen zwischen Akteuren durch Matrizen. Diese Präsentationsform eignet sich nur bedingt zur Erfassung der Beziehung durch den Menschen, hat dafür jedoch bei der Berechnung von Eigenschaften des Sozialen Netzwerkes bedeutende Vorteile. Durch die effiziente Notationsform der Matrizen findet die soziometrische Darstellungsform in der computerge- stützten Verarbeitung heute ihren wichtigsten Anwendungsfall. Die dritte Darstellungsweise ist die al- gebraische Notation, die vor allem zur Beschreibung von multirelationalen Netzwerken verwendet wird. Durch sie können Soziale Netzwerke textuell beschrieben werden.

Community : Der soziologische Begriff „Community“ wird heute durch den „Web2.0-Hype“ im Allgemeinen unpräzise verwendet, da er durch die Übertragung auf virtuelle Gemeinschaften im Internet in seiner Bedeutung erweitert wurde. Dabei werden die Nutzer einer Webseite vorschnell als Community bezeichnet, sofern sie durch Angabe eines Profils voneinander unterscheidbar sind und in der Regel durch die Abgabe von Beiträgen etwas zur Community beitragen.

Gemeinschaften definieren sich im Wesentlichen durch emotionale Bindekräfte und ein Zusammenge- hörigkeitsgefühl zwischen den Mitgliedern, die in der Form von virtuellen Gemeinschaften wesentlich schwächer ausgeprägt sind, da hier in der Regel keine direkten Kontakte, sondern diese über das anonyme

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Soziometrische Dar- stellung Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: Graphentheoretische

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.3: Algebraische Darstellung

Kommunikationsmedium Internet bestehen [GE02]. Dementsprechend gering ist die emotionale Bedeutung bei Gewinn oder Verlust eines Mitgliedes der virtuellen Gemeinschaft, zumal sich die Mitglieder nicht alle zwangsläufig untereinander kennen müssen.

Dennoch bauen auch virtuelle Communities ihre eigene Identität auf, die sich aufgrund der kleinsten Gemeinsamkeiten einer ansonsten heterogenen Gruppe herausstellen lassen. Klassische Communities bilden sich bevorzugt aus Gemeinsamkeiten aus dem kulturellen, ethnischen oder religiösen Bereich, de- ren Mitglieder sie zum Teil unfreiwillig werden, wie beispielsweise durch Geburt in eine Familie. Com- munities im erweiterten Sinn bestehen in der Regel aus freiwilligen Mitgliedern, die häufig gleichzeitig Mitglieder mehrerer Communities sind. Aufgrund der lockeren Bindung zur virtuellen Gemeinschaft ist diese einer ständigen Fluktuation unterworfen, die durch ihre neuen Mitglieder wechselnden Einflüssen ausgesetzt ist.

In dieser Arbeit werden Communities sowohl über die kleinste Gemeinsamkeit wie die Sprache oder die Thematik des Blogs definiert, als auch über ihre strukturellen Beziehungen, d.h. ihre gegenseiti- ge Kenntnis und Interaktion. Durch das Bilden von Schnittmengen sollen Merkmale gefunden werden, durch die sich einzelne Communities präzise definieren und detektieren lassen. Im folgenden wird der Begriff Community als Oberbegriff von sozialen Untergruppen verwendet, sofern eine Differenzierung nicht notwendig ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.4: Ein Graph bestehend aus den 2-Cliquen der Knoten { 1 , 2 , 3 , 5 , 6 } und { 2 , 3 , 4 , 5 , 6 }, sowie dem 2-Clan der Knoten { 2 , 3 , 4 , 5 , 6 }

Clique: Treffender als der Begriff Community ist der soziologische Begriff der Clique. Eine Clique bezeichnet eine Gruppe von Personen, die sich alle untereinander kennen und besteht aus mindestens drei Teilnehmern. Der Graph einer Clique ist maximal vollständig, das heißt in einem Graphen mit n Knoten existieren n * (n − 1) ungerichtete Kanten. Da bereits die Abwesenheit einer Kante die Bedingung für die Existenz einer Clique verletzt, finden sich in Graphen nur relativ kleine Cliquen. Daher ist es sinnvoll, die Definition auf die so genannte n-Clique auszuweiten, in der alle Knoten des Subgraphen N s über eine maximale Distanz von n Knoten erreichbar sein müssen.

Abbildung in dieser Leseprobe nicht enthalten

Soziologisch vertretbar ist die Untersuchung von n ≤ 3, wobei 2-Cliquen am häufigsten betrachtet wer- den. Ein großer Nachteil von Cliquen ist jedoch die Möglichkeit, dass die Verbindung von Knoten auch über Nicht-Mitglieder der Community erfolgen kann. Eine 2-Clique des in Abbildung 2.4 dargestellten Graphen umfasst die Knoten { 1 , 2 , 3 , 5 , 6 }, wobei die Verbindung der Knoten 3 und 5 über Knoten 4 hergestellt wird, der nicht Teil der 2-Clique ist. Im gleichen Graphen existiert eine weitere 2-Clique mit den Knoten { 2 , 3 , 4 , 5 , 6 }.

N-Clan: Diesen Nachteil vermeidet der n-Clan, bei dem der maximal auffindbare Durchmesser des Graphen n nicht überschreiten darf und ansonsten alle Knoten über maximal n Kanten erreichbar sind. Dies bringt den Vorteil mit sich, dass die ermittelten Gruppen stärker zusammen hängen. Ein 2-Clan in Abbildung 2.4 besteht aus den Knoten { 2 , 3 , 4 , 5 , 6 }.

Durch das Ermitteln der Dichte von Graphen lassen sich Rückschlüsse auf gleiche Interessen, Fähig- keiten und Eigenschaften von Nutzern ableiten, welches für unterschiedliche Zwecke verwendet werden kann. Beispielsweise lassen sich Interessenten einer Thematik zueinander führen und als Gruppe einer Thematik zuordnen. Hierdurch wird es Bloggern ermöglicht, Gleichgesinnte sehr viel schneller zu finden, als dies über Suchmaschinen möglich ist.

2.3 Verwandte Arbeiten

Die Erforschung der Blogosphäre steht angesichts ihrer jungen Vergangenheit erst seit wenigen Jahren im wissenschaftlichen Interesse und wird aufgrund der starken Verbreitung im nordamerikanischen Raum überwiegend in den USA und Kanada betrieben. Dementsprechend gering fällt das Vorhandensein von Literatur aus; hier muss der Leser sich aus den Gebieten Web-Crawling, Information-Retrieval, DataMining, Soziale Netzwerke und Web 2.0 bedienen. Dennoch existieren interessante Ansätze, die auf Konferenzen, wie der „Association of Internet Researchers“9 , der „International World Wide Web“10 oder der „Very Large Data Bases“11 diskutiert werden.

Hauptsächlich werden derzeit Ansätze verfolgt, die es ermöglichen, Communities in der Blogosphäre zu erkennen. Überwiegend werden dabei bewährte Methoden aus dem Bereich des Information Retrieval mit Methoden der Analyse Sozialer Netzwerke kombiniert. In [BCKT07] beschreiben die Autoren einen Ansatz, Sprach-Cluster, aufgrund des textuellen Inhaltes der Blogs im Bezug zur zeitlichen Dimensi- on zu erkennen und stabile Verbindungen aufzudecken. Hierzu werden Sprach-Clustering-Algorithmen eingesetzt, wie sie von Suchmaschinen verwendet werden, um einen vernetzten Schlüsselwort-Index zu generieren. Dadurch lassen sich zwar Blogs identifizieren, die inhaltlich verwandt sind, allerdings nicht Bestandteil der gleichen, realen Community sein müssen und in der Blogosphäre durch viele Hops12 voneinander getrennt sind. Hinzu kommt das Problem, dass der auf diese Weise gefundene Cluster auf eine Sprache begrenzt ist und sich ohne eine Übersetzung keine Cluster über heterogene Sprachräume finden lassen. Von daher ist der Mehrwert der Erkenntnisse dieser Veröffentlichung gegenüber den Er- kenntnissen, die durch eine herkömmliche Suchmaschine gewonnen werden können, gering, da auf die besonderen Eigenschaften der Blogosphäre nicht eingegangen wird. Dennoch lassen sich die Sprach- cluster bei der Community-Erkennung als ergänzendes Merkmal verwenden; bislang wurde dies jedoch noch nicht umgesetzt.

Die Veröffentlichung [LSC+07] konzentriert sich auf die Erkennung von Communities, deren Mitglieder sich gegenseitig bewusst sind. Nach den Autoren lassen sich Communities durch die Form des Graphen, die eine solche ausbildet und durch die Semantik der Hyperlinkstrukturen, die sich von herkömmli- chen Webseiten unterscheidet, erkennen. Besonders beachtet wurden die verschiedenen Aktionen der Blogger sowie deren Frequenz und Auftrittszeit. Hierzu wurden die verschiedenen Linkarten differen- ziert und die in den Blogs vorhandenen Zeitangaben ausgewertet. Als Bedingung zur Zugehörigkeit zu einer Community setzten die Autoren voraus, dass die Blogs in der Vergangenheit, innerhalb eines Zeit- fensters, mit einer minimalen Häufigkeit aufeinander reagiert haben mussten, nach der die Stärke der Beziehung gemessen wurde. Dieser Ansatz ist als positiv zu bewerten, da die besonderen Eigenschaften der Blogosphäre als ein aufeinander reagierendes Kommunikationsmedium beachtet werden. Durch das Festsetzen des Schwellenwertes, den zwei Blogger durch gegenseitiges Reagieren überschreiten müssen, lassen sich die Größe und die Stabilität der extrahierten Communities bestimmen. Ist der Schwellenwert zu gering, so bilden sich große Communities, deren Mitglieder zum Teil nur selten und zufällig auf ein- ander reagierten. Bei einem hohen Schwellenwert verringert sich die Community zu einem stabilen Kern aus Blogs, die sehr häufig interagieren. Indem die Reaktion eines Bloggers auf den Beitrag eines anderen Blogs in zeitliche Relation gestellt wird, fließt ein weiterer Parameter zur Berechnung des Schwellen- wertes ein und bewertet die Art der Reaktion zusätzlich. Es ist ein interessanter Ansatz, die Festsetzung des Schwellenwertes, anhand dessen über die Community-Zugehörigkeit entschieden wird, in Abhän- gigkeit des generellen zeitlichen Verhaltens der einzelnen Blogs zu setzen und damit die Abwertung von Communities mit einer geringeren Reaktionshäufigkeit zu unterbinden. Ein Nachteil bei der gezeigten Analyse der Veröffentlichung ist, dass der Inhalt der Blogs nicht beachtet wird. Dies lässt sich aller- dings durch die unterschiedlichen Sprachen, in denen die Weblogs geführt werden, nicht ohne Aufwand realisieren. Gerade wenn nur auf die Linkstruktur geachtet wird, geschieht es häufig, dass der mit dem Auffinden der Blogs beauftragte Web-Crawler Blogs verschiedener Sprach- und Kulturräume auffindet. Aus diesem Grund wird die untersuchte Gruppe von Akteuren häufig gezielt beschränkt und zum Teil manuell selektiert, um Probleme mit unterschiedlichen Sprachen zu vermeiden. Ein weiterer Nachteil ist das Herabstufen von „Hubs“ und „Authorities“. Damit sind Blogs gemeint, die eine hohe Anzahl von aus- beziehungsweise eingehenden Links besitzen und durch die Leser stark kommentiert werden. Auf- grund der Masse werden allerdings nur sehr wenige Kommentare durch die Betreiber einer „Authority“ durch Gegenkommentare erwidert, und es kommt im vorliegenden Modell zu einer Abstufung des stark frequentierten Blogs, obwohl dieser eine bedeutende Rolle innerhalb einer Community spielen kann.

Mit dem System BlogScope [BK07] stellen die Verfasser ein im Aufbau befindliches Projekt vor, wel- ches unter der Adresse www.blogscope.net aufrufbar ist und die Blogosphäre sowohl räumlich, als auch zeitlich analysiert. So ist es möglich, bei der Suche nach Stichwörtern, das Herkunftsland des Blog- autors zu beachten oder nur Blogs anzuzeigen, die innerhalb eines definierbaren Zeitraums aktualisiert wurden. Mit diesem Ansatz unterscheidet sich der angebotene Dienst von allen anderen im World Wide Web zugänglichen Blog-Verzeichnissen. Es ist jedoch zu kritisieren, dass die Autoren ein Bild erzeugen, welches vermittelt, dass in BlogScope sämtliche Blogs georeferenziert wären. Tatsächlich ist dies jedoch nur für einen Teil der indexierten Blogs wahr, nämlich den Blogs, die bei dem Blog-Hoster „Blogspot“13 geführt werden und die sich über die Google-Data-API14 gezielt nach Ortsangaben des Bloggers durch- suchen lassen. Allerdings führen nicht alle Blogspot-Nutzer ein Impressum, welches durch BlogScope nach Geo-Informationen durchsucht wird, sodass sich der Anteil der Blogs, die einem Punkt auf der Erde zugeordnet werden können, weiter verringert. Dennoch können die vorhandenen Informationen als ein Indikator dafür gesehen werden, welche Themen an welchen Orten der Erde besonders stark diskutiert werden, wenn als Voraussetzung gesehen wird, dass Googles Blogging-Dienst weltweit gleichermaßen verbreitet ist.

Im Ansatz von [CC06] kombinieren die Autoren die Linkstruktur-Analyse mit der Analyse Sozialer Netzwerke, um dadurch Communities aufzudecken. Dabei spielt die Netzwerkzentralität als Bewertungs- faktor eine bedeutende Rolle, indem zwischen der Anzahl der Links zu anderen Blogs, der durchschnitt- lichen Anzahl von Hops, um jeden anderen Blog zu erreichen und der Eigenschaft als Mittler zu anderen Blogs unterschieden wird. Besonders beachtet wird der Faktor der gegenseitigen Kenntnis, welcher be- reits in [LSC+07] aufgegriffen wurde. Mit Hilfe der Softwaretools PAJEK15 und UCINET16 wurden die Sozialen Netzwerke visualisiert und Communities manuell selektiert. Das entwickelte Modell wurde durch die Autoren an einem zur Untersuchung angelegten Blog des Blog-Hosters MSN Spaces17 über- prüft, wobei die Autoren nur Links zwischen anderen MSN Spaces-Nutzern beachteten und damit nur geringe Aussagen zur Praxistauglichkeit machen können. Zusätzlich versandten sie zur Überprüfung der gewonnenen Community-Struktur-Erkenntnisse an die lediglich 600 ausgewerteten Blogs Fragebögen, wovon nur 15 beantwortet wurden und damit keine wissenschaftlich fundierten Erkenntnisse möglich sind. Ebenfalls fragwürdig ist die Erkennung der Communities in Graph-Visualisierungen durch die Au- toren, welches bei Analysen mit mehreren Millionen Blogs in dieser Form nicht durchführbar ist.

In [KBN07] beschreiben die Autoren ein Verfahren zur Messung der Linkstruktur zwischen Blogs un- ter Verwendung des von Google implementierten PageRank Algorithmus [SB98]. Zentrale Bedeutung trägt dabei die Verteilung der PageRank-Bewertung von Blogs innerhalb der Blogosphäre und wie diese sich von herkömmlichen Webseiten unterscheidet. Durch den PageRank-Algorithmus berechnet Goo- gle die Linkpopularität von Webseiten, indem die Anzahl der Webseiten bestimmt wird, die auf eine Webseite verweisen. Dabei wird der PageRank der verweisenden Seiten zur Berechnung einbezogen. Der Algorithmus bildet einen zufällig durch das Netz surfenden Nutzer nach, sodass PageRank mit der Wahrscheinlichkeit verglichen werden kann, mit der der Nutzer auf eine Webseite trifft. Um Manipula- tion des PageRank-Wertes auszuschließen, veröffentlicht Google diesen in unregelmäßigen Abständen und dies mit einer geringeren Genauigkeit, als er von der Suchmaschine intern verwendet wird. Zu- dem wird die genaue Berechnungsweise als Geschäftsgeheimnis von Google bewahrt. Es wird häufig zu Unrecht kritisiert, dass PageRank nur eine Aussage zu der Relevanz einer Webseite im Vergleich zu anderen Seiten im Internet macht; die Relevanz zu dem gesuchten Begriff bleibt dabei allerdings un- beachtet. Hierbei wird übersehen, dass PageRank ein Ranking-Algorithmus und kein Suchalgorithmus ist. Für die Untersuchung der Vernetzung hat dies allerdings den Vorteil, dass der Inhalt der Blogs das PageRank Ergebnis nicht beeinflusst und PageRank, nach Aussage der Verfasser, somit als Maß für die Vernetzung gesehen werden kann. Jedoch wirkt sich die besondere Bewertung von Seiten mit einem ho- hen PageRank unmittelbar auf die Bewertung des Blogs aus, welches der Struktur der Blogosphäre nicht gerecht wird: Da ein Großteil der auffindbaren Links aus Hyperlinks in Kommentaren besteht, haben diese einen höheren Einfluss auf das PageRank-Ergebnis als die übrigen bestehenden Links. Indem ein Blogger gezielt Kommentare auf einem Blog mit einem hohen PageRank-Wert hinterlässt, kann er den PageRank-Wert seines eigenen Blogs manipulieren. Dadurch entsteht der Eindruck, als würde es sich beim Blog des Kommentators um einen häufig verlinkten Blog handeln. Die Möglichkeit des Hinterlas- sens von Hyperlinks auf fremden Seiten erfordert demnach eine Anpassung des PageRank-Algorithmus. Aufgrund des Geschäftsgeheimnisses kann nicht gesagt werden, ob PageRank die Verlinkung von Blogs von herkömmlichen Webseiten unterscheidet; es wird jedoch von den Autoren davon ausgegangen, dass dies nicht der Fall ist. Mit der hohen Bedeutung von Google am Suchmaschinenmarkt18 spielt das Er- gebnis der PageRank Bewertung eine zentrale Rolle für die Popularität von Webseiten und damit für die Wahrscheinlichkeit, dass eine Seite aufgerufen wird.

Zur Analyse der Blogosphäre entschieden sich die Autoren für die Methode, die Profile von Nutzern des Blog-Hosters Blogger.com19 nach URIs zu verknüpften Blogs zu durchsuchen. Dieser Ansatz gestaltet sich als einfach zu implementieren, da die Profile aufsteigend durchnummeriert sind. Auf diese Weise wurden im Zeitraum zwischen 2005 und 2006 8,8 Millionen Blogs gefunden und der PageRank innerhalb eines Tages ausgewertet.

Die Auswertung auf einen Blog-Betreiberdienst zu konzentrieren und damit Aussagen über die gesamte Blogosphäre zu machen ist sehr fragwürdig, zumal Blogger.com (Blogspot) durch Google finanziert wird und damit die Berechnung des PageRank von Google aktiv beeinflusst werden kann. Aufgrund der fehlenden Transparenz bei der Berechnung des PageRank Wertes kann dies nicht nachvollzogen werden. Es ist daher nicht auszuschließen, dass Google zur Erhöhung des Marktanteils von Blogger.com den PageRank der dort geführten Blogs zu dessen Gunsten manipuliert.

Zwar ist die Datengrundlage der Veröffentlichung im Vergleich zu anderen recht hoch, verliert jedoch durch die einseitige Ausrichtung auf einen Blog-Betreiberdienst an Aussagekraft. Hier wäre es besser ge- wesen weniger Blogs, aber dafür unterschiedliche Betreiberdienste auszuwerten. Nicht nachvollziehbar ist die Tatsache, dass die auf den Blogs vorhandenen Links nicht extrahiert wurden, um daraus einen unabhängigen, blogspezifischen Bewertungsfaktor zu berechnen. Die spezifischen Eigenschaften der Blogosphäre bleiben zudem völlig unbeachtet. Es wird weder zwischen verschiedenen Linkarten, wie Kommentar-Links, Links in Beiträgen oder Blogroll-Links unterschieden, noch wird zwischen Verlin- kungen durch Blogs und herkömmlichen Webseiten differenziert, obwohl die Autoren die Unterschiede dieser Links in ihrer Einleitung erläutern.

Generell kann gesagt werden, dass bei den verschiedenen Forschungsansätzen die Tatsache ignoriert wird, dass die Blogosphäre ein weltumspannendes Netz bildet und damit unterschiedliche Sprachen ver- treten sind. Häufig werden die zu untersuchenden Netzwerke begrenzt, indem beispielsweise nur ein Betreiberdienst analysiert wird. Viele Ansätze, die auf Clustering basieren, gehen davon aus, dass Blogs prinzipiell in englischer Sprache geführt werden. Diese Arbeit grenzt sich insofern von anderen ab, indem die Bestimmung der Sprache zentraler Bestandteil bei der Analyse von räumlichen Aspekten ist. Zudem werden die von den Bloggern erzeugten Schlagwörter, die bei sauber gepflegten Blogs für jeden Beitrag angegeben werden, dazu verwendet, den Inhalt in Verbindung mit den Sprachinformationen des Blogs zu klassifizieren. Es ist Gegenstand der Untersuchung, ob dies gegenüber Clustering-Methoden vorteil- hafter ist. Es ist jedoch zu erwarten, dass die Ergebnisse von hoher Qualität sind, da die Kategorisierung unmittelbar von den Autoren der Blogs stammt. Hinzu kommt, dass sich durch diesen Ansatz die Klas- sifizierung mit höherer Performanz als bei der Anwendung von Clustering-Algorithmen realisieren lässt. Im Gegensatz zu Diensten im Netz, die Ortsangaben über den Herkunftsort eines Ortes machen, verfolgt die Implementierung der Diplomarbeit den Ansatz, Ortsangaben vollständig aus den in den Blogs ge- machten Angaben und der verwendeten Sprache zu gewinnen und diese nicht durch Angaben bei einer Registrierung auszulesen.

Durch vorläufige Analysen hat sich ergeben, dass weltweit nur sehr wenige unterschiedliche Blogsyste- me verwendet werden, sodass mit relativ geringem Aufwand bei der Implementierung eines Webcrawlers ein Großteil der Blogosphäre untersucht werden kann. Auf den Voruntersuchungen basierend kann da- von ausgegangen werden, dass bei der Beachtung der Systeme von Wordpress und Blogspot bereits über 80% der weltweit geführten Blogs untersucht werden können, welches als Gegenstand der vorliegen- den Arbeit belegt werden soll.

[...]


1Siehe http://www.basicthinking.de/blog/2008/05/23/interesse

2Siehe http://blogsearch.google.com/

3Siehe http://www.studivz.org

4Siehe http://www.xing.com

1Siehe http://www.kcnn.org/research/citizen_media_report/

2Skriptsprache, die hauptsächlich zur Erstellung von dynamischen Webseiten verwendet wird

3Weit verbreitetes Open-Source Verwaltungssystem für relationale Datenbanken

4http://www.technorati.com

5Extensible Markup Language Remote Procedure Call ist eine Definition zum Funktionsaufruf durch verteilte Systeme

6http://www.sixapart.com/pronet/docs/trackback_spec

7http://ln.hixie.ch/?start=1033171507

8Definition siehe unten

9Siehe http://aoir.org/

10Siehe http://www2008.org/

11Siehe http://www.vldb.org/

12Anzahl der Schritte auf dem Weg von einem Netzknoten zum nächsten

13Betreiber: Google

14Siehe http://code.google.com/apis/gdata/

15Siehe http://vlado.fmf.uni-lj.si/pub/networks/pajek/default.htm

16Siehe http://www.analytictech.com/ucinet/ucinet.htm

17Betreiber: Microsoft

18Siehe http://www.webhits.de/deutsch/index.shtml?/deutsch/webstats.html

19Siehe http://www.blogger.com

Ende der Leseprobe aus 100 Seiten

Details

Titel
Auswertung zeitlicher und räumlicher Aspekte der Informationsausbreitung in der Blogosphäre
Hochschule
Technische Universität Dresden  (Institut für Systemarchitektur)
Note
1,0
Autor
Jahr
2008
Seiten
100
Katalognummer
V188911
ISBN (eBook)
9783656127512
ISBN (Buch)
9783656128564
Dateigröße
3633 KB
Sprache
Deutsch
Schlagworte
auswertung, aspekte, informationsausbreitung, blogosphäre
Arbeit zitieren
Oliver Gepp (Autor:in), 2008, Auswertung zeitlicher und räumlicher Aspekte der Informationsausbreitung in der Blogosphäre, München, GRIN Verlag, https://www.grin.com/document/188911

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Auswertung zeitlicher und räumlicher Aspekte der Informationsausbreitung in der Blogosphäre



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden