Data-Mining in Social Media

Methoden und Geschäftsmöglichkeiten für die Anwendung in Social Media


Masterarbeit, 2016

173 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

Abbildungsverzeichnis 6

Tabellenverzeichnis 7

Abkürzungsverzeichnis 8

1 Einleitung 10
1.1 Motivation 10
1.2 Problemstellung und Zielsetzung 12
1.3 Aufbau der Arbeit 13

2 Soziale Medien 14
2.1 Entwicklung 14
2.2 Definition und Eigenschaften von sozialen Medien 15
2.3 Bedeutung von sozialen Medien für Unternehmen 19

3 Data-Mining 23
3.1 Definition und Eigenschaften von Data-Mining 23
3.2 Bedeutung von Data-Mining für Unternehmen 24
3.3 Web-Mining 26
3.4 Multimedia-Mining 30
3.5 Social Media-Mining 35
3.5.1 Social Network Analysis 36
3.5.2 Opinion-Mining und Sentiment Analysis 38

4 Data-Mining Methoden in sozialen Medien 42
4.1 Crawling 42
4.2 Pre-Processing 47
4.2.1 Text Pre-Processing 48
4.2.2 Webpage Pre-Processing 50
4.3 Supervised Learning Methoden 52
4.3.1 Logistische Regression 54
4.3.2 Künstliche neurale Netze 55
4.3.3 Decision Trees 59
4.3.4 Support Vector Machines 62
4.3.5 K-Nearest Neighbors 67
4.3.6 N-Grams 68
4.3.7 Naive Bayesian Klassifikation 69
4.4 Unsupervised Learning 70
4.4.1 Clustering 70
4.4.2 Merkmalsselektion 74
4.4.3 Social Network Analysis 81
4.4.4 PageRank 89
4.5 Semi-supervised Learning 91
4.5.1 Gaußsche Felder und Harmonische Funktionen 92
4.5.2 Recursive Autoencoders 95
4.5.3 Pattern Recognition bei sarkastischen Inhalten 102
4.6 Zusammenfassung der Methoden 105

5 Geschäftsmöglichkeiten aus Social Media-Mining 108
5.1 Social Media-Mining als Serviceleistung 109
5.2 Marktforschung 111
5.3 Customer Relationship Management 115
5.4 Produktentwicklung 121
5.5 Wettbewerbsanalyse 125
5.6 Vorhersagen mithilfe von Social Media-Mining 127
5.7 Recruiting 130
5.8 Gegenüberstellung der Methoden und Geschäftsmöglichkeiten 133

6 Schluss 135
6.1 Zusammenfassung 135
6.2 Limitationen 136
6.3 Fazit und Ausblick 137

7 Literaturverzeichnis 140

1 Einleitung

Die Digitalisierung in verschiedensten Bereichen schreitet unaufhaltsam voran (Liu 2011, S. 1) . Das Internet ist aus der heutigen Zeit nicht mehr wegzudenken und bildet die größte und umfassendste Quelle für Informationen (Liu 2011, S. 1) . Anders formuliert kann man im World Wide Web (WWW) alles an Wissen finden, in allen erdenklichen Bereichen (Liu 2011, S. 1) . Gerade in der heutigen Zeit mit zunehmendem Wettbewerb auf unsicheren globalen Märkten können Organisationen einen nachhaltigen Vorteil gegenüber ihren Konkurrenten aus diesem Wissen ziehen (Nonaka 1991; Peters/Brush 1996; Heinrichs/Lim 2003, S. 104; Dey et al. 2011) . Damit einem Unternehmen dies gelingt, braucht es begabte und fähige Menschen, eine auf Lernen fokussierte Organisationskultur und neueste Informationstechnologien, um effektives Wissensmanagement ( Knowledge Management) zu betreiben (Kuo 1998; Sauter 1999; Heinrichs/Lim 2003, S. 104; Dey et al. 2011, S. 1) . Für eine erfolgreiche Adaption von Wissensmanagement muss folglich auch das Geschäftsmodell des Unternehmens angepasst werden. Das betrifft zum einen taktische Modelle, die sich auf das Geschäftsfeldportfolio, die Preissetzung und verkaufsfördernde Aspekte beziehen und zum anderen strategische Modelle, die die finanzielle Struktur, die Brand Equity und den Kundenwert thematisieren (Gale/Wood 1994; Lim et al. 1999; Heinrichs/Lim 2003, S. 105) . Um sich erfolgreich am Markt behaupten zu können, muss ein Unternehmen mehr über Geschäftsprozesse, Technologien, Märkte und Kunden wissen (Lim et al. 1999; Heinrichs/Lim 2003, S. 105) . Mit der Weiterentwicklung des Internets zum interaktiven Web 2.0 und der Entstehung von sozialen Online-Plattformen bieten sich der heutigen Geschäftswelt in dieser Hinsicht neue Möglichkeiten (Chakrabarti 2002; Liu/Chen-Chuan-Chang 2004) . Auf diese Gegebenheiten aufbauend, leitet sich im nachfolgenden Teilkapitel die Motivation für diese Arbeit ab.

1.1 Motivation

Aufgrund der sich rasch entwickelnden Internettechnologien wird in sozialen Medien eine große Menge an Echtzeit-Verbraucher-Daten geschaffen, die eine bisher nicht dagewesene Möglichkeit für ausgereifte Analysetools und die nächste Generation von sozialen Applikationen bieten (Banerjee et al. 2009, S. 1826) . Diese wiederum können eingesetzt werden, um interessante Einblicke in soziale Netzwerke und Gesellschaften in einem bisher nicht realisierbaren Ausmaß zu gewinnen (Barbier/Liu 2011, S. 332) . Menschliche Beziehungen, die früher hauptsächlich in einem physischen Umfeld untersucht wurden, können nun in digitalen Medien erforscht werden (Lauw et al. 2010; Barbier/Liu 2011, S. 332) . Auf diese Weise können sowohl soziale als auch politische Meinungen und Einstellungen regionalen Bevölkerungsgruppen zugeordnet werden, ohne kostspielige Umfragen durchführen zu müssen (Kumar et al. 2009; Ritterman et al. 2009; Ulicny et al. 2010; Barbier/Liu 2011, S. 332) . Des Weiteren zeichnen soziale Medien virale Marketingtrends auf und bieten somit eine ideale Quelle, um Einflussmechanismen besser zu verstehen und zu nutzen (Domingos/Richardson 2001; Barbier/Liu 2011, S. 332) . Um jedoch sinnvolle Informationen aus sozialen Medien gewinnen zu können, müssen sogenannte Data-Mining Techniken, wie in Kapitel 3 erläutert, angewandt werden, die die Herausforderungen bewältigen können, die mit Daten aus sozialen Medien einhergehen (Barbier/Liu 2011, S. 332) . Die größten Herausforderungen sind erstens der Umfang der Daten aus sozialen Medien, zweitens, dass die Daten viel Rauschen, also unnütze Elemente, enthalten, und drittens, dass die Daten durch Änderungen und häufige Updates dynamisch sind (Liu/Chen-Chuan-Chang 2004, S. 1; Barbier/Liu 2011, S. 332) . Durch entsprechende Methoden können nicht nur Inhalte, sondern auch Beziehungen zwischen in den sozialen Medien vertretenen Objekten (Nutzer, Webseiten, etc.) analysiert und zu entsprechenden Informationen verarbeitet werden (Barbier/Liu 2011, S. 332) . Es existieren bereits Data-Mining Methoden, die darauf spezialisiert sind, Beziehungsmuster und -regeln zu identifizieren (Han/Kamber 2006; Barbier/Liu 2011, S. 332) . Die bereits entwickelten Techniken, wie Support Vector Machines (Kapitel 4.3.4) oder Clustering (Kapitel 4.4.1), können auf Data-Mining in sozialen Medien angewandt werden, auch wenn Modifikationen und Weiterentwicklungen teilweise nötig sind (Chen/Chau 2004; Barbier/Liu 2011, S. 333; Lappas 2011, S. 337) . Dadurch und durch den großen Umfang von Social Media-Daten ergibt sich eine Vielzahl von neuen Möglichkeiten, die Unternehmen nutzen können: Suchergebnisse von täglich angewandten Suchmaschinen können verbessert werden, Unternehmen können gezieltes und individualisiertes Marketing betreiben, Psychologen haben die Möglichkeit, das Verhalten von Nutzern zu untersuchen, es entstehen neue Einblicke in soziale Strukturen, die vor allem für Soziologen interessant sind, Webservices können für Verbraucher personalisiert werden und die Vorhersage bestimmter Ereignisse wird möglich (Cortizo et al. 2009; King et al. 2009; Barbier/Liu 2011, S. 333) . Konkret sind Data-Mining Methoden auf soziale Medien anwendbar, um Communities oder Gruppen zu ermitteln (Zhou et al. 2007; Baatarjav et al. 2008; Tang et al. 2008) , Informationen zu verbreiten (Gruhl et al. 2004) , Einflusswirkungen zu untersuchen (Java et al. 2006; Agarwal/Liu 2009; Agarwal et al. 2009; Ulicny et al. 2010) , bestimmte Themen zu finden und zu beobachten (Chi et al. 2009; Ritterman et al. 2009) , das Verhalten von Individuen (Backstrom et al. 2007; Liu/Liu 2009; Lauw et al. 2010) oder Gruppen (Tang/Liu 2010; Yu et al. 2010) zu analysieren oder Marktforschung zu betreiben (Domingos/Richardson 2001) (Barbier/Liu 2011, S. 333) .

1.2 Problemstellung und Zielsetzung

Die Motivation, Data-Mining in sozialen Medien zu betreiben, ist vielfältig und bringt unterschiedliche Möglichkeiten für Berufsgruppen und Organisationen mit sich. Eben hier setzt die vorliegende Arbeit an:

Es wird untersucht, welche bereits existierenden Data-Mining Methoden zur Analyse von Daten aus sozialen Medien verwendet werden können und welche Geschäftsmöglichkeiten sich daraus ergeben.

Zur Beantwortung dieser Fragestellung werden wissenschaftliche Studien und Artikel aus Fachzeitschriften und -tagungen sowie Fachbücher herangezogen. Es existiert, wie oben erläutert, eine Vielzahl an Data-Mining Methoden, die sich im Rahmen des maschinellen Lernens auch für Social Media-Mining eignen. Zwar gibt es bereits tiefgehende Forschungsberichte über Data-Mining Methoden, jedoch keine detaillierte Zusammenstellung der Methoden im Hinblick darauf, wie sie für Social Media-Mining eingesetzt werden können. Ziel der Arbeit ist es daher, einen Überblick über die Data-Mining Methoden zu geben, die entweder grundlegend für Data-Mining in sozialen Medien sind und/oder die Analyse spezieller Aspekte des Social Media-Minings ermöglichen, beispielsweise Methoden zum Opinion-Mining (siehe unter anderem Kapitel 3.5.2). Die Vorstellung der Methoden ist dabei nicht abschließend, da eine umfassende Untersuchung aller möglichen Data-Mining Methoden – je nach gewünschtem Ergebnis und Art der Daten kann eine individuelle Methode nötig sein (Barbier/Liu 2011, S. 335) – den Umfang der Arbeit übersteigen würde. Dies kann somit die Grundlage weiterer Arbeiten bilden.

Zum Verständnis der hinter den Methoden stehenden mathematischen Modelle werden Kenntnisse in der Vektorrechnung sowie weitere mathematische, insbesondere statistische Vorkenntnisse vorausgesetzt.

Im zweiten Teil der Arbeit sollen die Geschäftsmöglichkeiten betrachtet werden, die sich aus der Anwendung von Data-Mining Methoden auf Daten aus sozialen Medien ergeben. Es geht folglich darum, wie Unternehmen Social Media-Mining, nicht aber soziale Medien allgemein (optimale Gestaltung etc.) zu ihrem Vorteil nutzen können.

1.3 Aufbau der Arbeit

Nach der allgemeinen Hinführung zum Thema, der Motivation, Problemstellung und Zielsetzung der Arbeit wird in Kapitel 1 auf soziale Medien eingegangen. Es folgt eine Darstellung der Entwicklung sozialer Medien, der Begriffsdefinition, der Eigenschaften sozialer Medien und schließlich ihrer Bedeutung für Unternehmen. Kapitel 2 beinhaltet die Definition von Data-Mining. Auch hier wird die Bedeutung für Unternehmen betrachtet, bevor auf besondere Formen des Data-Mining wie Web-Mining, Multimedia-Mining und Social Media-Mining eingegangen wird. Anschließend werden in Kapitel 3 Data-Mining Methoden vorgestellt, die im Rahmen des Social Media-Minings Anwendung finden. In Kapitel 4 finden sich die Geschäftsmöglichkeiten, die sich durch die Nutzung von Data-Mining in sozialen Medien ergeben. Kapitel 1 fasst die Arbeit zusammen, weist Limitationen auf, zieht ein Fazit und gibt Anregungen für weitere Forschungsarbeiten.

2 Soziale Medien

Im Folgenden wird eine Übersicht über die Entwicklung der Social Media gegeben, bevor sie definiert, beschrieben und ihre Bedeutung für Unternehmen dargelegt werden.

2.1 Entwicklung

Bereits in seinem Ursprung sollte das Internet dem Informations- bzw. Datenaustausch dienen. Zu Beginn war es nicht mehr als ein sogenanntes Bulletin Board System, also ein schwarzes Brett (Kaplan/Haenlein 2010, S. 60) . Ende der neunziger Jahre dann stieg die Zahl an Homepages an, auf denen Nutzer private Inhalte teilen konnten (Kaplan/Haenlein 2010, S. 60) . Das heutige Pendant dazu sind Blogs (Kaplan/Haenlein 2010, S. 60) . In der Mitte der Neunziger erschienen Unternehmen wie amazon.com und Ebay erstmals auf der Bildfläche, was dazu führte, dass das Internet nach und nach auch vermehrt für E-Commerce genutzt wurde (Kaplan/Haenlein 2010, S. 60) . Das Interesse am und die Anforderungen an das Internet seitens Unternehmen und Kunden haben sich seither zu dem Bedürfnis des interaktiven Austauschs zwischen und innerhalb der beiden Gruppen gewandelt (Banerjee et al. 2009, S. 1823) . Hier kommen soziale Medien ins Spiel. Studien zufolge werden soziale Medien wie Facebook und Twitter mehr und mehr dazu genutzt, sich seinen Freunden oder Followern mitzuteilen, neue Freunde zu finden, Informationen zu bekommen, sich die Zeit zu vertreiben oder um die eigene Meinung öffentlich kundzutun (Raacke/Bonds-Raacke 2008; Shih 2009; Park et al. 2009; Kaplan/Haenlein 2010; Keckley/Hoffmann 2010; Shih 2010; He et al. 2013, S. 464; Brooks 2015; Ellwein/Noller 2015, S. 3) . Die Inhalte und persönlichen Informationen können mit anderen Nutzern sozialer Medien in Echtzeit und in verschiedenen Multimediaformaten wie Text-, Audio- und Videodateien geteilt werden (Banerjee et al. 2009, S. 1823; Barbier/Liu 2011, S. 331) . Auf diese Weise erhalten Anwender nicht nur die Möglichkeit, ihre realen sozialen Kontakte im Web abzubilden, sondern können diese auch über geographische und soziale Grenzen hinweg erweitern (Banerjee et al. 2009, S. 1823; Barbier/Liu 2011, S. 331) . Die Möglichkeit, selbst Inhalte in sozialen Medien zu generieren ( User Generated Content (UGC)), hat die traditionelle Medienlandschaft von Zeitungen, Radio, Fernsehen und die Kommunikationswege grundlegend verändert (Barbier/Liu 2011, S. 330 f.; Hu/Liu 2012, S. 386) Aus einer einseitigen, von den Herausgebern oder Produzenten gesteuerten Informationsverteilung (one to many) wurde ein nicht nur zwei-, sondern vielseitiger Dialog (many to many), in den Menschen weltweit eingebunden sind (Barbier/Liu 2011, S. 330 f.; Hu/Liu 2012, S. 386) . Wie umfassend der Begriff soziale Medien ist und welche Möglichkeiten für Unternehmen mit der Nutzung sozialer Medien einhergehen, soll in den folgenden zwei Abschnitten betrachtet werden.

2.2 Definition und Eigenschaften von sozialen Medien

Um soziale Medien zu definieren, grenzenKaplan/Haenlein (2010) den Begriff zunächst von den Konzepten Web 2.0 und UGC ab. Das Web 2.0 beschreibt eine Plattform, auf der ständig Inhalte und Applikationen von allen Nutzern in Zusammenarbeit erstellt werden (Kaplan/Haenlein 2010, S. 61) . Da diese Interaktion in sozialen Medien eine entscheidende Rolle spielt, ist das Web 2.0 als Grundlage für die Entwicklung sozialer Medien zu sehen (Kaplan/Haenlein 2010, S. 61) . Der Begriff UGC wird seit 2005 zunehmend verwendet und umfasst alle Möglichkeiten zur Nutzung sozialer Medien, was die verschiedenen Medieninhalte einschließt, sofern sie öffentlich zugänglich sind und von Endnutzern verfasst wurden (Kaplan/Haenlein 2010, S. 61) . Soziale Medien sind folglich Online-Plattformen, die UGC in jeder Weise möglich machen. Je nachdem, wofür ein soziales Medium genutzt wird oder welcher Art es ist, kann es einer Kategorie zugeordnet werden. Tabelle 1 zeigt die gängigsten Formen sozialer Medien sowie Beispiele zur jeweiligen Kategorie.

[Tabellen werden in dieser Leseprobe nicht angezeigt.]

Tabelle 1: Verbreitete Kategorien sozialer Medien (Barbier/Liu 2011, S. 330; Hu/Liu 2012, S. 387)

LautWunsch-Vincent (2007) muss der nutzergenerierte Inhalt drei wesentliche Kriterien erfüllen, um als solcher klassifiziert zu werden:

- Er muss im Internet frei für alle oder in einem sozialen Netzwerk einer bestimmten Gruppe zugänglich sein,
- er muss in gewissem Maße eine kreative Leistung aufweisen und
-er muss außerhalb von professionellen Routinen und Praktiken erstellt worden sein.

NachKietzmann et al. (2011) werden für soziale Medien mobile und webbasierte Technologien eingesetzt, um höchst interaktive Plattformen zu schaffen, über die einzelne Personen oder auch Gruppen nutzergenerierten Inhalt teilen, gemeinsam erstellen, diskutieren und bearbeiten können. Die Autoren entwickelten ein Modell basierend auf Ideen und Konzepten der BloggerSmith(2007),Webb(2004) undMorville (2004), in dem sie sieben wesentliche Komponenten für soziale Medien festhalten: honeycomb of social media Modell (siehe Abbildung 1). Dabei muss eine Plattform nicht alle Elemente aufweisen, um als soziales Medium zu gelten. Meist liegt der Fokus auf drei oder mehr Blöcken des Modells (Smith 2007; Kietzmann et al. 2011, S. 249) . Im Folgenden werden die sieben Dimensionen erläutert und mit weiteren wissenschaftlichen Quellen hinterlegt.

Identity steht für den Grad, zu dem Nutzer sozialer Medien ihre Identität preisgeben. Dies umfasst nicht nur Name, Alter, Geschlecht etc., sondern auch Gedanken und Gefühle sowie Likes und Dislikes (positive und negative Bewertungen), abhängig von der jeweiligen Plattform. So geht es beispielsweise bei Twitter weniger um die Identität der Nutzer als um den Inhalt ihrer Nachrichten. Verkaufsplattformen hingegen sind an den Profilen ihrer Nutzer interessiert, um deren Interessen entsprechende Werbung anbieten zu können (Aggarwal/Yu 2000, S. 4) . Obwohl Nutzer sozialer Medien freiwillig Angaben zu ihrer Identität machen, ist der Schutz der Privatsphäre wichtig (Bonneau et al. 2009; Barbier/Liu 2011, S. 336) . Das heißt, den Nutzern ist nicht gleichgültig, was mit ihren Daten, die sie zu einem bestimmten Zweck angegeben haben, geschieht. Insbesondere entstehen Bedenken darüber, wie die Daten sekundär für Data-Mining und Überwachung verwendet werden (Kietzmann/Angell 2010) . Andere Nutzer wiederum möchten hervorstechen und promoten sich selbst durch soziale Medien. Beispielsweise bezahlen professionelle Fotografen für die Verbreitung ihre Bilder auf Flickr, um mehr Aufmerksamkeit auf sich zu ziehen (Kietzmann et al. 2011, S. 244) .

[Abbildungen werden in dieser Leseprobe nicht angezeigt.]

Abbildung 1: Honeycomb of social media (Kietzmann et al. 2011, S. 243)

Conversations bezeichnet im Honeycomb-Modell das Ausmaß, in dem Nutzer untereinander in sozialen Medien kommunizieren. Oft ist der Wunsch, Gleichgesinnte oder einen Partner/eine Partnerin zu finden oder sich über neue Ideen und Trends zu informieren, der Grund, warum Menschen in sozialen Medien kommunizieren. Andere wiederum möchten sich durch Social Media Gehör verschaffen, auf humanitäre oder Umweltprobleme aufmerksam machen oder politische Debatten führen (Beirut 2009). Aus der Häufigkeit, mit der ein Nutzer Beiträge teilt und dem Inhalt von Konversationen können Unternehmen wichtige Informationen gewinnen (Barbier/Liu 2011; Kietzmann et al. 2011) . Von besonderer Bedeutung sind hierbei zwei Variablen: die rate of change, die die Anzahl an neuen Konversationen innerhalb einer bestimmten Zeitperiode angibt und die direction of change, die bezeichnet, wie kontinuierlich bzw. diskontinuierlich eine Konversation verläuft, zum Beispiel in Bezug auf ein Produkt (Kietzmann et al. 2011, S. 244) .

Sharing beschreibt den Grad, zu dem Nutzer Inhalte austauschen, verbreiten und erhalten. Entscheidend ist dabei das Objekt, das die Nutzer zusammenbringt. So entscheiden Nutzer im Prinzip in Abhängigkeit des Objektes, ob sie soziale Bindungen eingehen wollen oder nicht. Interessiert sich jemand beispielsweise für Bilder, wird er am ehesten Mitglied bei Flickr und vernetzt sich dort mit anderen Nutzern. Steht der Austausch über Musik im Vordergrund, bildet MySpace die passende Plattform, um Kontakte zu finden. Würden diese Objekte (Bilder und Musik) wegrationalisiert, hätten die Nutzer der Plattformen keine gemeinsamen Themen und würden sich folglich nicht länger an ihnen beteiligen (Kietzmann et al. 2011, S. 245) .

Presence gibt an, inwieweit Nutzer feststellen können, ob andere Nutzer erreichbar sind. Dies schließt das Wissen ein, wo sich andere Nutzer befinden, sowohl in der realen als auch in der virtuellen Welt, und ob sie verfügbar sind. So gibt es beispielsweise Apps wie Friends Around Me, die es ermöglichen zu sehen, ob und welche Freunde aus verschiedenen sozialen Netzwerken wie Facebook und Twitter gerade in der Nähe sind (Kietzmann et al. 2011, S. 245 f.) .

Relationships stellt den Umfang dar, innerhalb dessen Nutzer mit anderen in Verbindung stehen. Damit ist gemeint, dass zwei oder mehrere Personen miteinander kommunizieren, Objekte teilen, sich treffen oder sich gegenseitig als Freund oder Fan listen. Dabei kommt es nicht allein auf die Häufigkeit von Kommunikationen oder die Anzahl an Freunden an, sondern auch darauf, ob und wie diese Beziehungen gepflegt werden. Je nach Plattform unterscheiden sich Struktur und Art der Verbindung. Während LinkedIn beispielsweise darauf abzielt, ein möglichst großes Netzwerk um einen Nutzer herum aufzubauen, das heißt, neue Menschen kennenzulernen, ist Skype darauf ausgerichtet, mit bereits bekannten Personen zu sprechen, seien es gute Freunde oder auch formellere Kontakte. Auf Plattformen wie YouTube und Twitter dagegen spielen Beziehungen eine untergeordnete Rolle, was auch damit einhergeht, dass die Identität der Nutzer auf diesen Plattformen nur von geringer Bedeutung ist (Kietzmann et al. 2011, S. 246 f.) .

Reputation bezeichnet das Ausmaß, zu dem Nutzer ihr Ansehen oder das anderer Nutzer in sozialen Medien feststellen können. Häufig ist das Ansehen dabei abhängig von der Vertrauenswürdigkeit des Nutzers. Allerdings gestaltet sich die Messung einer solchen qualitativen Variablen schwierig. In sozialen Medien werden dazu beispielsweise Likes auf Facebook oder YouTube herangezogen, oder die Anzahl an Followern auf Twitter. Außerdem werden nicht nur die Teilnehmer der Social Media bewertet, sondern auch die Inhalte, die sie posten, teilen usw. (Kietzmann et al. 2011, S. 247) .

Groups schließlich beschreibt den Grad, zu dem Nutzer Gruppen ( communities) und Untergruppen (subcommunities) bilden. Je größer und weiter verzweigt ein Netzwerk wird, desto größer ist die Gruppe von Freunden, Followern und Kontakten. Dabei unterscheidenKietzmann et al. (2011) zwei Arten von Gruppen: selbst erstellte Gruppen, denen enge Freunde, weniger enge Freunde, Fans usw. zugeordnet werden können und solche, die Clubs oder Vereinigungen aus der realen Welt entsprechen, was bedeutet, dass sie entweder allen zugänglich sind, die Erlaubnis zum Beitritt erfordern oder geheim sind und denen man nur per Einladung beitreten kann (Kietzmann et al. 2011, S. 247) .

Diese breite Definition von Social Media lässt Rückschlüsse darauf zu, wie umfassend und weitreichend das Web 2.0 geworden ist. Mit sprichwörtlich einem Klick können Millionen Menschen weltweit erreicht und Informationen mit ihnen geteilt werden (Mangold/Faulds 2009, S. 359) . In der Leichtigkeit der Informationsverbreitung und deren Reichweite wiederum liegen große Chancen für Unternehmen, aber auch zahlreiche Risiken (Kaplan/Haenlein 2010) . Auf diese wird im folgenden Abschnitt eingegangen.

2.3 Bedeutung von sozialen Medien für Unternehmen

Im ersten Quartal 2015 verzeichnete Facebook 1,441 Milliarden Nutzer (Facebook o. J.) . Im Vergleich dazu waren es im Jahr 2008 noch 100 Millionen (Facebook o. J.) . Dabei können Nutzer als Privatpersonen oder Unternehmensvertreter auftreten. Folglich bieten Social Media-Plattformen die Möglichkeit, dass Unternehmen, Geschäftspartner, Lieferanten und Kunden untereinander kommunizieren (Culnan et al. 2010, S. 243) . Beispielsweise können Unternehmen Werbeinhalte viral über soziale Medien verbreiten, während Kunden Feedback zu Produkten geben und so anderen (potentiellen) Kunden Informationen bereitstellen (Domingos 2005, S. 80 ff.) . Bei Kaufentscheidungen kann nicht mehr nur auf die Meinungen oder Empfehlungen von Freunden und Familie zurückgegriffen werden, sondern es können vielseitige Eindrücke in Foren oder Blogs, auf Verkaufsplattformen wie zum Beispiel amazon.com und Ebay, und in sonstigen sozialen Medien eingeholt und darauf basierend entschieden werden (Aggarwal/Yu 2000, S. 4; Cambria et al. 2013, S. 15) .

Das Feedback der Kunden kann auch von Unternehmensseite genutzt werden, um beispielsweise neue Produkte, die den Anforderungen des Marktes zu einem hohen Grad entsprechen, zu entwerfen oder bestehende zu verbessern (Heinrichs/Lim 2003, S. 107; Dey et al. 2011; Bekmamedova/Shanks 2014, S. 3729) . Geben zum Beispiel Käufer Bewertungen zu einem Produkt auf der Verkaufsplattform amazon.com ab, können die Hersteller diese auswerten und das Feedback als Anregung zur Anpassung ihres Angebots nutzen.

Firmen haben die Möglichkeit, die sozialen Medien zu instrumentalisieren, um die Einstellung gegenüber dem Unternehmen oder Kaufentscheidungen der Kunden zu beeinflussen, indem sie durch die Bewerbung ihrer Produkte, Services und der Marke die Markenwahrnehmung erhöhen und so die Kundenbindung stärken (Kaplan/Haenlein 2010, S. 61; Kiron et al. 2013; Bekmamedova/Shanks 2014, S. 3729) . Fällt ein Kunden-Review positiv aus, ist die Wahrscheinlichkeit hoch, dass sich andere (potentielle) Kunden auch für dieses Produkt entscheiden (Liu 2011, S. 459) . Außerdem ermöglicht die Werbung per Social Media Kostensenkungen unter anderem durch die virale Verbreitung von Werbeinhalten (Domingos 2005, S. 80; Bekmamedova/Shanks 2014, S. 3729) . Ziel hierbei ist es, dass der Clip oder sonstige Werbung von Kunde zu Kunde mit einer positiven Wertung weitergegeben wird (positives Word-of-mouth (WOM)), wodurch der beworbene Inhalt hohe Aufmerksamkeit zu vergleichsweise geringen Kosten erzielt (Domingos 2005, S. 80) . Wichtig bei solchen Kampagnen ist es, eine kritische Masse zu erreichen (Culnan et al. 2010, S. 244) . Ist dies gewährleistet, verbreitet sich der Inhalt ‚wie von selbst weiter‘ (Culnan et al. 2010, S. 244) . Jedoch verbreiten sich nicht nur positive Inhalte mit hoher Geschwindigkeit, sondern auch negative. Als zum Beispiel United Airlines die 3500 USD teure Gitarre des Musikers David Carrol bei der Gepäckbeförderung beschädigte und er über ein Jahr lang ohne Erfolg mit der Fluggesellschaft um Schadensersatz gekämpft hatte, griff Carrol auf YouTube zurück (Deighton/Kornfeld 2010; Carroll 2012) . Er veröffentlichte im Juli 2009 einen Song inklusive Video, der das Geschehene in gut viereinhalb Minuten zusammenfasst (Sons of Maxwell 2009) . Innerhalb eines Tages sahen 150.000 Internetnutzer das Video, einen Monat später waren es bereits 5 Millionen (Tripp/Grégoire 2011) , im Juli 2015 über 15 Millionen (Sons of Maxwell 2009) . Das Video erzeugte nicht nur negatives WOM, sondern hatte drastische finanzielle Auswirkungen für die Fluggesellschaft und ihre Aktionäre: der Aktienkurs fiel um 10%, was die Shareholder über 180 Millionen USD kostete, den Gegenwert von mehr als 51.000 Ersatz-Gitarren (Ayers 2009). Dieses Beispiel zeigt, welch großen Einfluss Kunden mithilfe sozialer Medien auf Unternehmen haben können. Daher ist es wichtig, dass Unternehmen eine angemessene Social Media-Strategie entwickeln und umsetzen (Lardi/Fuchs 2013, S. 18 f.) .

Für eine effektive Nutzung sozialer Medien sind drei Aspekte zu beachten:

1. Die Organisation muss eine sorgfältige Entscheidung zu Beginn der Präsenz in sozialen Medien treffen (Culnan et al. 2010, S. 246) . Dies beinhaltet die Klärung der Fragen, welche Plattformen genutzt und verwendet werden, woran der Wert, der durch die Verwendung sozialer Medien generiert wird, gemessen werden kann (zum Beispiel Größe der Community, Verbreitung der vom Unternehmen erstellten Inhalte) und wer für die Verwaltung der sozialen Plattformen verantwortlich ist (Culnan et al. 2010, S. 246) . Des Weiteren müssen die Applikationen einfach über Links von Unternehmensseiten oder direkt zugänglich sein und ein Risikomanagement eingerichtet werden (Culnan et al. 2010, S. 247) . Dies dient dazu, Risiken wie Verstöße gegen die Sicherheit oder die Vertraulichkeit der Kunden, das Durchsickern intellektuellen Eigentums und die Verletzung der Firmenpolitik oder des Verhaltenskodexes zu begegnen (Culnan et al. 2010, S. 247) . Mit einem erfolgreichen Risikomanagement hätte auch ein Verlust wie in oben genanntem Fall von United Airlines verhindert oder zumindest begrenzt werden können.

2. Die Organisation sollte Communities bilden, die eine möglichst große Anzahl an Kunden und Followern umfassen (Culnan et al. 2010, S. 246) . Zu ihnen sollte eine enge Bindung aufgebaut werden, da soziale Plattformen vorrangig der Kommunikation dienen (Culnan et al. 2010, S. 246) . Dabei muss die Infrastruktur des Webauftritts eines Unternehmens so gestaltet sein, dass eine Community zunächst entsteht und anschließend bestehen bleibt, was bedeutet, dass stets eine kritische Masse an Teilnehmern aktiv in die sozialen Medien eingebunden ist (Culnan et al. 2010, S. 249) .

3. Die Organisation braucht die nötigen Kompetenzen, um den von ihren Kunden generierten Inhalt sinnvoll nutzen zu können ( absorbtive capacity) (Culnan et al. 2010, S. 246) . Dazu gehören einerseits die Auswertung des UGC und andererseits die angemessene Reaktion darauf (Culnan et al. 2010, S. 249) . Zur Schaffung der erforderlichen Kompetenz ist zum einen die Zuweisung der Verantwortlichkeit für Social Media-Monitoring nötig, zum anderen die Entwicklung formeller Systeme und Regeln, nach denen kundengenerierte Nachrichten weitergeleitet und beantwortet werden (Culnan et al. 2010, S. 249 f.) . Zum dritten ist eine Entscheidung darüber nötig, wie Berichte (diverse Statistiken) über die Aktivitäten in Social Media erstellt, geteilt und vom Unternehmen genutzt werden (Culnan et al. 2010, S. 249 f.) .

Aufgrund des immensen und globalen Wachstums sozialer Medien wie Facebook und Twitter sehen es Firmen jeder Größe und Branche als unumgänglich an, soziale Medien in ihre Marketingstrategie zu integrieren (Hanna et al. 2011, S. 272 f.) .

Zusätzlich können Unternehmen soziale Medien auch intern einsetzten. Das Ergebnis einer Studie aus dem Jahr 2009, in der der Gebrauch von Social Media-Plattformen von 1700 Unternehmen untersucht wurde, zeigte, dass 64% der Befragten Web 2.0 Plattformen intern (Intranet-Systeme) nutzen (Culnan et al. 2010, S. 243) . Der interne Einsatz ermöglicht den Mitarbeitern den gegenseitigen Austausch von Wissen und Informationen, was nicht nur die Motivation, sondern auch die Generierung neuer, dem Unternehmen dienlicher Ideen fördert (Culnan et al. 2010, S. 257; Dey et al. 2011, S. 1; Brooks 2015; Ellwein/Noller 2015, S. 3) . Diese Art der Verwendung sozialer Medien steht jedoch in vorliegender Arbeit nicht im Vordergrund.

Zusammenfassend bieten soziale Medien Unternehmen vielfältige Möglichkeiten, um mit ihren Kunden zu kommunizieren. Jedoch zeichnen sich soziale Medien insbesondere durch den UGC aus, wodurch sie umfassende Daten über Nutzer, Produkte, Firmen, Veranstaltungen, Ereignisse und vieles mehr enthalten. In diesen Daten liegen umfangreiche Informationen verborgen, die, sofern sie korrekt gesammelt und ausgewertet werden, Unternehmen großen Gewinn bringen können. Für die Analyse der Daten ist die Anwendung von Data-Mining notwendig, was im folgenden Kapitel genauere Betrachtung findet.

3 Data-Mining

Das Kapitel dient der Begriffserklärung des Data-Minings und der sich daraus ergebenden Bedeutung für Unternehmen. Anschließend werden Sonderformen des Data-Minings vorgestellt: Web-Mining und Multimedia-Mining. Daraus ergibt sich schließlich die Thematik des Social Media-Minings. Neben der jeweiligen Begriffsdefinition geht das Kapitel insbesondere auf die Aufgaben der Data-Mining-Formen ein.

3.1 Definition und Eigenschaften von Data-Mining

Im Hinblick auf eine Definition von Data-Mining ist sich die Wissenschaft grundsätzlich einig. So ist unter Data-Mining die Erkennung von Mustern zu verstehen, die aus Daten abgeleitet werden (Chakrabarti 2002, S. XV; Grabmeier/Rudolph 2002, S. 303; Chye Koh/Kee Low 2004, S. 462; Liu 2011, S. 6; Aggarwal et al. 2012, S. 164) . Data-Mining wird auch als Knowledge Discovery from Data (KDD) oder Knowledge Discovery in Databases (KDD) bezeichnet (Han/Kamber 2006; Barbier/Liu 2011, S. 328; Liu 2011) . Das Ableiten von Mustern erfolgt mithilfe verschiedener statistischer Methoden, auf die in Kapitel 1 eingegangen wird. Die Definitionen weichen lediglich im Präzisionsgrad voneinander ab. Bei einigen Begriffsfestlegungen müssen zum Beispiel die Muster und Beziehungen aus den Daten valide, neuartig, potenziell nützlich und verständlich sein (Chye Koh/Kee Low 2004, S. 462; Liu 2011, S. 6) , während andernorts versteckte und ebenfalls potenziell nützliche Informationen aus einer sehr großen Datenbasis gewonnen werden müssen (Aggarwal et al. 2012, S. 164) . Data-Mining ist eng mit maschinellem Lernen (machine learning), statistischen Methoden, Datenbasen, künstlicher Intelligenz (artificial intelligence), Informationsgewinnung ( information retrieval) – was das Finden von Dokumenten und Inhalten bedeutet, die für die Suchanfrage relevant sind – und Visualisierung (visualisation) verknüpft (Barbier/Liu 2011, S. 328; Liu 2011, S. 211; Larose/Larose 2014) .

Der KDD-Prozess umfasst, nachdem ein zu lösendes Problem klar definiert wurde, im Wesentlichen drei Schritte: die Datenvorbereitung (pre-processing), das Data-Mining und die Datennachbereitung ( post-processing).

- Beim Pre-Processing wird die sorgfältig ausgewählte Datenbasis von Rauschen und Abnormitäten befreit sowie um überflüssige Informationen durch Stichprobenauswahl oder durch die Auswahl bestimmter Merkmale reduziert (Miller et al. 2006, S. 2; Markov/Larose 2007, S. 15; Liu 2011, S. 6; Ramasubramanian/Ramya 2013) .

- Im Data-Mining-Schritt werden auf die aufbereiteten Daten Algorithmen angewandt, um Muster zu erkennen oder Informationen ableiten zu können (Chakrabarti 2002; Barbier/Liu 2011, S. 328; Liu 2011, S. 6; Ramasubramanian/Ramya 2013, S. 4536) .

- Im letzten Schritt, dem Post-Processing, werden die gefundenen Muster und Informationen aufbereitet, die für den jeweiligen Zweck tatsächlich hilfreich sind. Um diese zu identifizieren und für den Endnutzer verständlich aufzubereiten, werden vielfältige Bewertungs- und Visualisierungstechniken angewandt (Bruha/Famili 2000; Díaz et al. 2010, S. 2; Liu 2011, S. 6) . Schließlich können, basierend auf den gewonnenen Ergebnissen, Entscheidungen getroffen werden (Bruha/Famili 2000, S. 111; Díaz et al. 2010, S. 2) .

Um ein zufriedenstellendes Ergebnis zu erhalten und dieses dann operativ anwenden zu können, muss der Prozess meist mehrfach durchgeführt werden. Die häufigsten Ursachen für das Scheitern von Data-Mining sind die hohe technische Komplexität der Daten und der eingesetzten Software, mangelnde Unterstützung und Interesse durch das Senior Management, unzureichende Flexibilität der Softwaretools, um gegebene Fragestellungen zu lösen sowie die Herausforderung, die Ergebnisse gewinnbringend einzusetzen (Heinrichs/Lim 2003, S. 104) .

Beim traditionellen Data-Mining-Prozess werden Daten untersucht, die in Data Warehouses strukturiert und in relationalen Tabellen in klar definierter Form (Spalten, Zeilen) gelagert sind (Chakrabarti 2002, S. 12; Liu 2011, S. 6) . Durch die weiter steigende Bedeutung sozialer Medien und das damit einhergehende Informationspotential entsteht ein Verlangen nach Data-Mining Methoden, die es ermöglichen, auch unstrukturierte, dynamische Daten zu evaluieren.

3.2 Bedeutung von Data-Mining für Unternehmen

Data-Mining kann großen Nutzen mit sich bringen, stellt Unternehmen aber auch vor Herausforderungen (Heinrichs/Lim 2003) . Zunächst muss klar sein, was man durch das Data-Mining in Erfahrung bringen möchte (Markov/Larose 2007) . Anschließend müssen die entsprechend richtigen Daten gesammelt und ausgewertet werden (Aggarwal et al. 2001) . Jedoch ist häufig bereits die zur Datensammlung und -auswertung nötige Software sehr komplex, sodass sie schwer zu bedienen ist (Heinrichs/Lim 2003, S. 104) . Folglich braucht ein Unternehmen entsprechend qualifiziertes Personal, das mit der Software und vor allem auch mit deren Output richtig umgehen kann (Heinrichs/Lim 2003, S. 104; Dey et al. 2011, S. 1) . Denn selbst wenn die richtigen Daten zur Auswertung herangezogen wurden, werden die Ergebnisse teilweise missinterpretiert. Auch hier muss für erfolgreiches Data-Mining ein Analyst mit dem nötigen Wissen eingesetzt werden. Des Weiteren ist es wichtig, dass die Ergebnisse des Data-Mining nicht nur richtig interpretiert, sondern auch sinnvoll präsentiert und an das Management weitergegeben werden (Heinrichs/Lim 2003, S. 104; Dey et al. 2011, S. 1) . Dieses muss dann ebenfalls das richtige Verständnis für die Datenanalyse haben, um fundierte Entscheidungen treffen zu können. Hier findet sich häufig die Problematik, dass sich das Management nicht ausreichend mit Data-Mining auseinandersetzt (Heinrichs/Lim 2003, S. 104) .

Das Data-Mining in sozialen Medien stellt Analysten nicht nur vor die gleichen Schwierigkeiten wie traditionelles Data-Mining, sondern beinhaltet noch weitere Herausforderungen (Barbier/Liu 2011, S. 332) . So haben es Analysten hier mit einem stetig und unkontrollierbar wachsenden Datenvolumen zu tun (Barbier/Liu 2011, S. 332) . Zum Beispiel kamen im Juli 2015 ca. 300 Stunden neues Videomaterial pro Minute auf YouTube, im Juni 2015 ca. 1.300 Fotos pro Minute auf Flickr und Stand August 2015 500 Millionen Tweets pro Tag hinzu (Brouwer 2015; internet live stats 2015; Michel 2015) . Auch die Heterogenität der Datentypen ist im Internet höher, vor allem unter dem Aspekt, dass beim traditionellen Data-Mining hauptsächlich Text nach Informationen untersucht wird (Markov/Larose 2007) . Online sind jedoch nicht nur Texte, sondern auch Bild-, Audio- und Video-Dateien vorhanden, die im Zuge des Data-Mining durchsucht werden können (Multimedia-Mining, siehe Kapitel 3.4) (Hauptmann et al. 1998; Li/Wu 2009; Aggarwal 2011) . Zudem liegen Informationen nicht nur auf einer Website vor, sondern sind häufig mehrfach vorhanden, aber unterschiedlich strukturiert und programmiert (Liu/Chen-Chuan-Chang 2004, S. 1) . Damit Unternehmen diese Informationen dennoch valide auswerten können, sind moderne Technologien erforderlich. Wie oben erwähnt, ist die bisher eingesetzte Software bereits sehr komplex. Nun jedoch muss sie noch weiteren Anforderungen entsprechen, um eine umfassende Datensammlung und -vorbe­reitung in den sozialen Medien zu ermöglichen. Hinzu kommt die Erwartung seitens der Anwender, dass die Daten trotz Masse und Vielfalt in hoher Geschwindigkeit verarbeitet werden können, was neben der begrenzten Speicherkapazität der Computer eine weitere Herausforderung darstellt. (Tang/Liu 2009b; Aggarwal/Wang 2010; Lakshmanan/Oberhofer 2010; Barbier/Liu 2011, S. 334) .

Schafft es ein Unternehmen aber, Data-Mining erfolgreich umzusetzen, bieten sich ihm viele Vorteile. Durch Data-Mining auch in Sozialen Medien entfallen beispielsweise kostspielige und langwierige Kundenumfragen, da Feedback online und für jeden zugänglich ist (Liu/Chen-Chuan-Chang 2004, S. 2; Chen/Zimbra 2010, S. 77) . So können Internetnutzer in Schlüsselrollen (key roles) identifiziert und gezielt beworben werden (Wasserman/Faust 1994; Scott et al. 2005; Stavrianou/Brun 2012, S. 61) . Insgesamt ist das Customer Relationship Management (CRM) durch die Auswertung kundenbezogener Daten individualisierbar, was wiederum die Kundenloyalität und Absatzzahlen steigert (Lee/Shih 2009, S. 201) .

Des Weiteren können Unternehmen Data-Mining nutzen, um den Wettbewerb zu analysieren und entsprechend den Ergebnissen Maßnahmen zu ergreifen (Heinrichs/Lim 2003) . Die sich aus Data-Mining in sozialen Medien ergebenden Geschäftsmöglichkeiten werden in Kapitel 1 ausführlich erläutert. Zunächst geht es jedoch in den folgenden Abschnitten um die Aufgaben des Data-Mining im Web und in sozialen Medien.

3.3 Web-Mining

Eine Aufgabe des Data-Mining ist das Web-Mining. Dieses zielt darauf ab, nützliche Informationen aus der Web Hyperlink Struktur, dem Inhalt einer Website und den Nutzungsdaten von Internetnutzern zu gewinnen (Liu 2011, S. 7). Im Vergleich zum traditionellen Data-Mining sieht sich das Web-Mining mit weiteren Herausforderungen konfrontiert. Während die Daten beim traditionellen Data-Mining in der Regel bereits strukturiert sind und in einem Data Warehouse zur Verfügung stehen, müssen beim Web-Mining Informationen aus un- oder nur teils strukturierten, heterogenen Daten gewonnen werden (Liu 2011, S. 7). Hinzu kommt, dass das Internet keine statische Datenbasis bietet, sondern sich immer verändert und weiter wächst (Xu et al. 2011b, S. 13) . Demzufolge ist es schwierig, Informationen durch automatisierte Prozesse zu gewinnen (Liu/Chen-Chuan-Chang 2004, S. 1) . Des Weiteren gilt es, effiziente Methoden zur Informationsgewinnung zu verwenden, was, wie oben erläutert, eine weitere Herausforderung des Web-Mining ist, da die Datenbasis immens ist und die Nutzer erwarten, innerhalb kürzester Zeit Informationen zu erhalten (Barbier/Liu 2011, S. 334) . So kann die Sammlung und Analyse von über 500 Millionen Tweets bei Einsatz einer „single commodity machine“ mehrere Stunden oder sogar Tage in Anspruch nehmen (Yu et al. 2014, S. 6) . Im traditionellen Data-Mining hingegen stellt Effizienz durch die begrenzte und strukturierte Datenbasis ein geringeres Problem dar (Liu 2011, S. 211).

Liu/Chen-Chuan-Chang (2004) nennen in ihrem Artikel zusammenfassend diverse Charakteristika des Internets, die sowohl Möglichkeiten als auch Herausforderungen für das Data-Mining im Netz mit sich bringen:

- Die Menge, Vielfalt und Dynamik der im Internet verfügbaren Daten und Informationen. Dadurch enthält das Internet beinahe alles Wissen.
-Unterschiedliche Datenstrukturen wie strukturierte oder semi-strukturierte Tabellen, Texte oder Multimediadateien. Das bedeutet, dass selbst wenn Inhalte verschiedener Websites redundant sind, der Suchvorgang durch Unterschiede im Datenformat erschwert wird.
-Verlinkung der Informationen im Netz, entweder zu einem Element auf derselben Seite oder auf einer anderen. Diese Links dienen zum einen der Informationsorganisation, zum anderen lassen sie Rückschlüsse auf die Vertrauenswürdigkeit der verlinkten Seite zu.
-Das Rauschen im Netz. Das bedeutet, eine Internetseite beinhaltet nicht nur den Hauptinhalt, sondern auch irrelevante Elemente wie Werbung, Navigationshilfen usw. Für die gewünschte Information ist normalerweise nur ein Teil der Seite interessant (Liu 2011, S. 211/229) .
-Das Internet besteht aus dem Surface Web und dem Deep Web, wobei das Oberflächenweb Seiten umfasst, die mit einem gewöhnlichen Browser genutzt und über Suchmaschinen gefunden werden können, während das Deep Web nur über parametrisierte Abfragen und unter Verwendung bestimmter Abfragemasken zugänglich ist.
-Das Netz als virtuelles Abbild einer Gesellschaft, da die Interaktion zwischen Menschen, Unternehmen, Organisationen oder automatisierten Systemen möglich ist.
- Bedingt durch die Dynamik des Netzes ist die kontinuierliche Anpassung vieler Auswertungsapplikationen nötig, was eine weitere Herausforderung des Data-Minings darstellt.

Abhängig von der Art der Daten, die im Zuge des Data-Mining Prozesses betrachtet werden, differenzieren sich drei Aufgaben des Web-Minings: das Web Content-Mining, Web Usage-Mining und Web Structure-Mining (Cooley et al. 1997; Lappas 2011, S. 337; Liu 2011, S. 7; Kosala/Blockeel 2000) .

Web Content-Mining

Das Problem, das mithilfe des Web Content-Minings (WCM) gelöst werden soll, ist, dass aus der großen Anzahl der verfügbaren Webseiten alle relevanten Seiten gefunden werden (Kosala/Blockeel 2000, S. 3; Lappas 2011, S. 337; Liu 2011, S. 7) . Um diese Anforderung zu erfüllen, wird der Inhalt der Websites mithilfe von Textklassifizierungsmethoden analysiert und mit der Suchanfrage abgeglichen (Sebastiani 2002; Lappas 2011, S. 337; Liu 2011, S. 7) . Dabei werden Internetseiten beispielsweise nach Themen klassifiziert (Liu 2011, S. 7). Hinter WCM steht das Streben, halb strukturierte Webdaten in eine strukturierte Datensammlung zu überführen und so einen effizienteren Suchmechanismus sowie eine effizientere Informationssammlung und -gewinnung zu ermöglichen (Cooley et al. 1997, S. 559; Cooley et al. 1999, S. 9; Sebastiani 2002; Lappas 2011, S. 337) . Dieses Ziel ist charakteristisch für das semantische Web, das die nächste Generation des Internets werden könnte (Berners-Lee et al. 2001; Lappas 2011, S. 337) . Das semantische Netz basiert auf Meta-Daten, die zum Inhalt der Websites in Beziehung stehen und die Seite somit für Suchmaschinen bedeutungsvoll machen (Cooley et al. 1997; Lappas 2011, S. 337) .

Web Usage-Mining

Ziel des Web Usage-Minings (WUM) ist es, Muster aus dem Navigations- und Browserverhalten der Nutzer abzuleiten (Cooley et al. 1997; Kosala/Blockeel 2000, S. 4; Lappas 2011, S. 337 f.; Liu 2011, S. 527) . Dazu werden Sekundärdaten verwendet, die aus den Interaktionen des Nutzers mit dem Web entstehen (Kosala/Blockeel 2000, S. 4) . Die Daten umfassen beispielsweise „Web server access logs, proxy server logs, browser logs, user profiles, registration data, user sessions or transactions, cookies, user queries, bookmark data, mouse clicks and scrolls, and any other data as the results of interactions” (Kosala/Blockeel 2000, S. 4) und werden in Log Files – spezielle Dateien, die im Server der Website gesichert werden – gespeichert (Lappas 2011, S. 337; Liu 2011, S. 527) . So kann jeder Klick eines Nutzers aufgenommen und ausgewertet werden. WUM liefert Antworten auf Fragen wie: Wie effizient ist eine Homepage in der Informationsbereitstellung? Wie nimmt ein Nutzer den Aufbau der Webseite wahr? Kann der nächste Besuch eines Nutzers vorhergesagt werden? Entspricht die Seite den Erwartungen der Nutzer? Kann die Zufriedenheit der Nutzer gesteigert werden? Können spezifische Nutzergruppen identifiziert und der Inhalt der Webseite auf sie zugeschnitten werden? (Lappas 2011, S. 337 f.) Die Beantwortung der Fragen ist durch die Auswertung der Log Files möglich, indem daraus das Zugangsverhalten (accsess behavior) und Nutzungsmuster (usage pattern) mithilfe von Cluster- und Klassifizierungsmethoden abgeleitet werden (Büchner et al. 1999; Levene/Loizou 2003; Lappas 2011, S. 338) . Das gewonnene Wissen kann dann dazu verwendet werden, die Qualität der Webinformationen und die Serviceperformance zu verbessern (Spiliopoulou/Pohle 2001; Eirinaki/Vazirgiannis 2003; Wang et al. 2005; Lappas 2011, S. 338) . Außerdem werden die Ergebnisse aus WUM für Produktempfehlungen wie „Kunden, die diesen Artikel gekauft haben, kauften auch …“ oder „Das interessiert Kunden aktuell“ verwendet (Markov/Larose 2007, S. 143; amazon.de o. J.) .

Web Structure-Mining

Das Web Structure-Mining (WSM) steht in enger Beziehung zur Analyse von Hyperlinks und Linkstrukturen im Netz, um Informationen und Wissen zu gewinnen (Chakrabarti et al. 1999; Kosala/Blockeel 2000, S. 4; Lappas 2011, S. 338; Liu 2011, S. 7) . Hyperlinks beinhalten Informationen, die über reinen Text hinausgehen und für Klassifizierung, Clustering und Rankings nach Relevanz von großer Bedeutung sind (Chakrabarti 2002, S. 12) . So wird WSM beispielsweise bei Suchmaschinen verwendet, um Webseiten nach ihrer Relevanz zu sortieren und sie entsprechend ihrer Ähnlichkeiten und Beziehungen untereinander zu klassifizieren (Kosala/Blockeel 2000, S. 4; Lappas 2011, S. 338) . Ein Beispiel für einen Algorithmus, der diese Aufgabe übernimmt, ist der von Google eingesetzte PageRank, der Webseiten nach der Anzahl der Links, die zu einer Seite hinführen (in-links), priorisiert (Lappas 2011, S. 338; Brin/Page 2012) (siehe Kapitel 4.4.4).

Im Rahmen des WSM werden auch die auf Hyperlinks basierenden Personalisierungsmaßnahmen und Empfehlungssysteme abgeleitet (Lappas 2011, S. 338) . WSM wird beispielsweise dazu verwendet, sogenannte Authorities zu identifizieren, also Webseiten, auf die von einer Vielzahl von anderen Seiten verwiesen wird, was sie wiederum zu einer vertrauenswürdigen Quelle von Informationen macht (Carbonell et al. 1998; Kosala/Blockeel 2000, S. 4; Lappas 2011, S. 338) .

Des Weiteren dient WSM dazu, Community-Netzwerke zu entdecken, indem Informationen aus der Ähnlichkeit von Links gezogen werden, die eine Klassifizierung von Nutzern ermöglichen (Lappas 2011, S. 338; Liu 2011, S. 7) . So können die Daten, die Informationen darüber beinhalten, welche Seiten ein Nutzer aufgerufen hat, mit denen über einen anderen Nutzer verglichen und dann je nach Ähnlichkeitsgrad gruppiert werden (Liu 2011, S. 7). Nähere Erläuterungen dieser Vorgehensweise finden sich in den Kapiteln 3.5.1 und 4.3.2 über Social Network Analysis.

Die Aufgaben des Web-Mining wurden getrennt voneinander erläutert, jedoch sind in der Praxis Überschneidungen denkbar (Lappas 2011, S. 338) . So besteht die Möglichkeit, eine der Datenquellen (Web Content, Log Files, Hyperlinks) für den Zweck einer anderen Kategorie (WCM, WUM, WSM) zu verwenden (Mladenic/Grobelnik 1999; Lappas 2011, S. 338) . Auch können Communities nicht nur auf Basis von Hyperlinks identifiziert werden, sondern auch über Gemeinsamkeiten in den Websiteinhalten, die Nutzer aufrufen, sowie den Access Logs (Zhang et al. 2006; Lappas 2011, S. 338) . Kombiniert man WUM und WCM, können Profile über die Inhalte eines Nutzers erstellt werden (Mobasher et al. 2000; Lappas 2011, S. 338) . Zunehmend an Bedeutung gewinnt die Kombination von Nutzungsdaten, Ontologie und Se­mantik, die die Personalisierung des Internets verbessert (Spiliopoulou/Pohle 2001; Berendt 2002; Dai/Mobasher 2003; Oberle et al. 2003; Lappas 2011, S. 338) . Außerdem sind WCM, WUM und WSM auch auf soziale Medien anwendbar. So können beispielsweise durch die Suche nach bestimmten Kriterien in Tweets und Suchmaschinenanfragen aktuellste Themen identifiziert werden, indem die Häufigkeit der Nennung bestimmter Schlagworte evaluiert wird (Yu et al. 2014).

3.4 Multimedia-Mining

Sinkende Kosten für Hardware und die wachsende Kommunikationsinfrastruktur (u.a. das Internet) haben dazu geführt, dass Geräte allgegenwärtig sind, mit denen Multimediaeinheiten – Bilder, Audiodateien, Videos, Hypertextdaten – aufgenommen, gespeichert, angesehen bzw. angehört und ausgetauscht werden können (Yoshitaka/Ichikawa 1999; Kotsiantis et al. 2004, S. 3263; Naaman 2012, S. 9; Zha et al. 2012, S. 362) . Dadurch entsteht eine große Menge an Daten, die wertvolle Informationen enthalten. Die Bewältigung der Datenmengen ist dem Menschen nur schwer oder gar nicht möglich, weshalb die Nachfrage nach automatisierten Multimedia-Mining Systemen immer stärker steigt (Kotsiantis et al. 2004, S. 3263) . Zu solchen Methoden zählen zum Beispiel die Analyse von Farbhistogrammen für Bilder, Energieschätzungen für Audiosignale, Emotionserkennung eines Redners für Audiodateien oder die automatische Zusammenfassung des TV-Programms (Burl et al. 1999, S. 3; Maybury 1997; Petrushin 2000; Kotsiantis et al. 2004, S. 3263) . Da die Daten unstrukturiert sind, gilt es, Beziehungen zwischen den Objekten oder Segmenten innerhalb der Komponenten von Multimediadokumenten herzustellen, wie zum Beispiel die Klassifizierung von Bildern basierend auf ihrem Inhalt, die Mustererkennung in Sounddateien, die Kategorisierung von Gesprochenem und Musik sowie das Erkennen und Verfolgen von Objekten in Videoaufnahmen (Kotsiantis et al. 2004, S. 3263) . Zur Verarbeitung der Daten müssen diese zuerst, wie beim traditionellen Data-Mining, im Pre-Processing vorbereitet werden. Das beinhaltet die Bereinigung, Normalisierung, Transformierung der und die Merkmalsselektion aus den Daten (Kotsiantis et al. 2004, S. 3263 f.) . Dabei gibt es je nach Dateiformat (Text, Bild, Audio oder Video) unterschiedliche Merkmale, die für die Analyse in Frage kommen (Kotsiantis et al. 2004, S. 3264) . Grundsätzlich existieren zwei Merkmalstypen: zum einen description-based Merkmale, also die Verwendung von Metadaten wie Schlagworte, Überschriften, Größe und Zeit der Erstellung, zum anderen content-based Merkmale, die auf dem Inhalt des jeweiligen Objekts basieren (Yoshitaka/Ichikawa 1999; Kotsiantis et al. 2004, S. 3264) . Im Folgenden wird auf die Merkmalsselektion und weitere Eigenschaften des Minings in den vier Bereichen eingegangen.

Text-Mining

Bei der Kategorisierung von Text ist der Inhalt eines Textes einer vordefinierten Kategorie zugeordnet (Kotsiantis et al. 2004, S. 3264) . Im Rahmen des Pre-Processing werden überflüssige Informationen wie nicht alphanumerische Zeichen sowie Großschreibung entfernt (Kotsiantis et al. 2004, S. 3264; Liu 2011, S. 228 f.; He et al. 2013, S. 466) . Anschließend werden Schlagworte identifiziert, die den Inhalt zusammenfassen und die Gruppierung der Textdokumente ermöglichen (Sebastiani 2002; Kotsiantis et al. 2004, S. 3264; Liu 2011, S. 228 f.) . In diesem Schritt findet auch die Entfernung von Stoppwörtern, also Worten, die keine Bedeutung für den Inhalt haben, wie Artikel, Hilfsverben, Präpositionen etc., statt (Kotsiantis et al. 2004, S. 3264; Miller et al. 2006, S. 4; Liu 2011, S. 227; Menczer 2011, S. 318) . Um die Textdokumente zu klassifizieren, wird jeweils nach Wörtern oder auch Sätzen gesucht, die häufig in Dokumenten derselben und selten in Dokumenten anderer Klassen vorkommen (Schütze 1998; Sebastiani 2002; Kotsiantis et al. 2004, S. 3264) . Eine weitere Herausforderung des Text-Minings sind Wortkonjugationen und -deklinationen (Sebastiani 2002; Kotsiantis et al. 2004, S. 3264) . Eine Lösung dafür bietet das Stemming, das Wortvariationen auf ihren Wortstamm reduziert bzw. durch eine Standardform ersetzt (Sebastiani 2002; Miller et al. 2006, S. 6) . Kapitel 4.2 beschreibt diese und weitere für Webdokumente nötige Schritte genauer.

Image-Mining

Die Bildkategorisierung gruppiert Bilder in semantische Datenbasen, die zuvor manuell kategorisiert wurden (Kotsiantis et al. 2004, S. 3264; Perner 2002, S. 208 f.) . Bilder in derselben Datenbasis können in ihrem visuellen Inhalt sehr stark variieren, zum Beispiel Bilder von Personen, während Bilder unterschiedlicher Datenbasen einen in den Farben ähnlichen Hintergrund zeigen, zum Beispiel ähneln die Farben mancher Blumen denen eines Sonnenuntergangs (Burl et al. 1999, S. 3; Stanchev/Flint 2003, S. 214; Kotsiantis et al. 2004, S. 3264) . Bilder können in vier Arten von Merkmalsvektoren beschrieben werden (Zhang et al. 2001a, 2001b; Hsu et al. 2002; Kotsiantis et al. 2004, S. 3264) :

1. Pixel Level Features speichern für jeden einzelnen Pixel eines Bildes spektrale und textuelle Informationen.

2. Region Level Features beschreiben Pixelgruppen, wobei jede Region durch ihre Grenzen und bestimmte Eigenschaften segmentiert wird, die Informationen über den Inhalt wie Text, Form, Größe oder den fraktalen Grad der Region beinhalten.

3. Tile Level Features präsentieren Informationen über ganze Bilder unter Verwendung von textuellen Beschreibungen, Fraktalskalen und anderen Größen.

4. Pattern und Knowledge Level Features verwenden Informationen wie Domain, verbundene alphanummerische Daten und semantische Beziehungen von Bildern zur Beschreibung eben dieser.

Image-Mining findet in vielen Bereichen Anwendung (Kannan et al. 2010, S. 17) . So zum Beispiel allgemein zur Gesichtserkennung, die auch zur Schätzung des Alters der Weltbevölkerung auf Basis der im Internet verfügbaren Fotos eingesetzt werden kann (Ni et al. 2009), um mithilfe von Satellitenbildern die Entwicklung von Waldbränden zu untersuchen, woraus Feuerwehrleute nützliche Informationen gewinnen (Hsu et al. 2002, S. 17 ff.; Longueville et al. 2009) , oder in der Medizin, um Ungewöhnlichkeiten oder Veränderungen auf Röntgenbildern zu entdecken (Dy et al. 2003).

Schwierigkeiten wie eine lange Laufzeit der Analyse und die Notwendigkeit hoher Speicherkapazitäten entstehen durch große Datenmengen und dadurch, dass es eine Vielzahl an unterschiedlichen Merkmalen gibt, die klassifiziert werden müssen, beispielsweise die Anzahl aller möglichen Farben. Außerdem ist Expertenwissen nötig, um Image-Mining zum einen durchzuführen und zum anderen die Ergebnisse valide zu bewerten, zum Beispiel bei der Interpretation von Röntgenbildern (Perner 2002, S. 206) .

Audio-Mining

Audiodateien können Musik oder gesprochenen Text enthalten. Für Audios gilt, dass eine Vielzahl von Informationen für jede einzelne Note bzw. jeden Ton (Erzeugung, Dauer, Lautstärke, Tempo und Instrumenttyp) sowie Metadaten wie Namen von Komponist und Künstler vorhanden sind (Kotsiantis et al. 2004, S. 3265; Moelants et al. 2006) . Dadurch sind statistische Maße wie das Tempo leicht zugänglich und es ist möglich, jedem Item eine high-level Beschreibung wie die Instrumentart und -anzahl zuzuordnen (Kotsiantis et al. 2004) . Die zur Klassifizierung am häufigsten verwendeten Merkmale sind (Wang et al. 2000; Uitdenbogerd/van Schyndel 2002; Kotsiantis et al. 2004, S. 3265) :

-Total Energy . Die temporale Energie eines Audio-Frames wird anhand des Root Mean Squares (RMS; mittlere Leistung eines Frequenzbandes) über das Audiosignal innerhalb jedes einzelnen Frames definiert.
- Zero Crossing Rate ist ebenfalls ein temporales Maß, das misst, wie oft ein wellenförmig dargestelltes Audiosignal die Nullachse schneidet.
- Frequency Centroid zeigt den gewichteten Durchschnitt aller Frequenzkomponenten eines Frames an.
- Bandwidth ist das gewichtete Mittel der quadrierten Differenz zwischen jeder Frequenzkomponente und seines Frequency Centroids.
- Pitch Period ist ein Merkmal, das die grundlegende Frequenz eines Audiosignals misst.

Diese Merkmale werden auf Musikdateien angewandt, um beispielsweise eine Musikerkennung durchzuführen (Leman et al. 2002; Lesaffre et al. 2003) .

Aus als Audio aufgenommenen Reden (umfasst hier alles Gesprochene) werden im Zuge des Audio-Mining Wörter extrahiert und in einen Index aufgenommen, in dem dann nach bestimmten Worten oder Sätzen gesucht wird (Hauptmann et al. 1998; Hall 2002; Aggarwal/Aggarwal 2011, S. 398; McFedries 2011) . Die Schwierigkeit liegt darin, dass es viel Zeit in Anspruch nimmt, zunächst alle in einer Rede verwendeten Wörter zu identifizieren (Aggarwal/Aggarwal 2011, S. 398) . Audio-Mining verwendet eine textbasierte Anfrage (Query) und lokalisiert dann den gesuchten Term oder Satz in einem Audiofile, was es Anwendern ermöglicht, zu einer bestimmten Stelle des Audios zu springen (Aggarwal/Aggarwal 2011, S. 398) . Audio-Indexing verwendet Spracherkennung, um eine ganze Datei zu analysieren und produziert einen Index von inhaltshaltigen Wörtern und deren Position, der zur weiteren Suche genutzt werden kann (Foote 1999; Aggarwal/Aggarwal 2011, S. 398) . Spracherkennung wird auch zur Sprachsteuerung von Geräten wie Tablets oder Smartphones verwendet. Das System Siri der Firma Apple erkennt Spracheingaben, sucht nach passenden Informationen, formuliert daraus eine Antwort und gibt diese als Audio zurück (Siri.com o. J.). Siri basiert auf einer von Novauris vor Akquisition durch Apple entwickelten Software (Forcha/Perez 2014), die es bereits im Jahr 2003 ermöglichte, „[gesprochene] Namen mit Adresse gegen eine Datenbank mit 245 Millionen Einträgen (sprich: der Bevölkerung der USA) abzugleichen und den korrekten Datensatz mit hinterlegten Zusatzinformationen – Kundendaten o.ä. – auszugeben […]. Die Trefferquote liege dabei bei 99 Prozent, die Suchzeit im Bereich von Sekundenbruchteilen.“ (Computerwoche 2003) . Die hohe Genauigkeit lässt darauf schließen, dass Störfaktoren wie Hintergrundgeräusche oder -stimmen zumindest bei dieser Anwendung herausgefiltert werden können (Aggarwal/Aggarwal 2011, S. 398) . Weitere Pro­bleme entstehen dadurch, dass Audio-Mining nicht zwischen Sprechern unterscheiden kann, Zeitstempel nicht immer genau sind und dass Audio-Mining spezifisch ist, was bedeutet, dass es jeweils auf bestimmte Applikationen oder Kategorien wie bestimmte Personen beschränkt ist (Aggarwal/Aggarwal 2011, S. 398) .

Video-Mining

Im Video-Mining gibt es drei Arten von Videos:

1. produzierte, zum Beispiel Filme, Nachrichtenvideos, Dramen, etc.
2. rohe, wie Verkehrsvideos, Überwachungsvideos usw. und
3. medizinische Videos, beispielsweise Ultraschallvideos einschließlich eines Echokardiogramms (Kotsiantis et al. 2004, S. 3265) .

Wie aus Audiodateien können auch aus Videos high-level Informationen gezogen werden, darunter folgende (Rosenfeld et al. 2003; Kotsiantis et al. 2004, S. 3265; Quack et al. 2006, S. 360) :

´- das Entdecken bestimmter Ereignisse wie Fahrzeuge, die in einen bestimmten Bereich einfahren oder Personen, die ein bestimmtes Gebäude betreten oder verlassen;
-das Ausmachen typischer und ungewöhnlicher Muster in Aktivitäten oder die Generierung von personen- oder objektabhängigen Aktivitäten;
-die Klassifizierung von Geschehnissen in benannte Kategorien, beispielsweise Laufen oder Fahrradfahren;
-Clustering und Bestimmung von Interaktionen zwischen Einheiten ( entities).

In der ersten Stufe des Minings von rohen Videodaten ist die Gruppierung der Input Frames in ein Set von Basiseinheiten vorgesehen, die für die Struktur des Videos relevant sind (Kotsiantis et al. 2004, S. 3265) . Die in produzierten Videos verwendeten Basiseinheiten sind meist Einstellungen (shots), die als eine Sammlung von an einem Stück und von einer einzigen Kamera aufgenommenen Frames definiert sind (Kotsiantis et al. 2004, S. 3265; Quack et al. 2006) . Methoden zur Erfassung der Shots können nach vielen Kriterien klassifiziert werden: auf Basis von Pixeln, Statistiken, Transformationen, Merkmalen oder Histogrammen (Kotsiantis et al. 2004, S. 3265) . Für die Videosegmentierung können Farb- oder Grauskalenhistogramme – wie beim Image-Mining –, sowie Bewegungs- und Textmerkmale oder rechnerische Merkmale, die sich aus Bearbeitungseffekten ergeben, verwendet werden (Ardizzone/La Cascia 1997; Yu/Wolf 1997; Dorai/Truong 2000; Xie et al. 2003; Kotsiantis et al. 2004, S. 3265; Quack et al. 2006, S. 361) . Gibt es zwischen zwei aufeinanderfolgenden Frames einen Unterschied, der einen gewissen Schwellenwert übersteigt, wird von einem Schnitt ( shot boundary) zwischen diesen beiden Frames ausgegangen (Kotsiantis et al. 2004, S. 3265) . Der Vergleich von Pixeln von aufeinanderfolgenden Bildern dient als Anhaltspunkt zur Messung des Unterschieds (Zhang et al. 1995; Kotsiantis et al. 2004, S. 3265) .

Auch im Video-Mining besteht die Herausforderung in der Menge, Größe und Vielfalt der Daten und Merkmale, was mit hohen Kosten, hoher benötigter Speicherkapazität und hoher Laufzeit einhergeht (Poullot et al. 2008) .

Da Bilder, Audiodateien und Videos in Textinformation umgewandelt werden können (Foote 1999; Hall 2002; Aggarwal/Aggarwal 2011, S. 398; McFedries 2011; Ellwein/Noller 2015) , liegt der Schwerpunkt der Arbeit auf der Analyse von textuellen Daten aus sozialen Medien. Worauf es beim Social Media-Mining ankommt, erläutert der folgende Abschnitt.

3.5 Social Media-Mining

Data-Mining in sozialen Medien oder Social Media-Mining beschäftigt sich mit grundlegenden Konzepten und Algorithmen, die dazu geeignet sind, die Menge an Social Media-Daten zu analysieren. Es werden Theorien und Methodologien aus verschiedenen Bereichen wie Computerwissenschaften, Data-Mining, maschinelles Lernen, Ethnographie, Statistik, Optimierung, Mathematik und viele mehr diskutiert (Zafarani et al. 2014, S. 16) . Social Media-Mining umfasst Tools zur formellen Darstellung, Messung, Modellierung und Auswertung von Mustern aus den groß angelegten Social Media-Daten (Zafarani et al. 2014, S. 16) . Häufig verwendete quantitative Daten aus sozialen Medien sind der Ort, an dem etwas gepostet wurde, der Zeitpunkt des Postens, die Länge des Posts, die Anzahl an Antworten, die Zeitspanne, bis eine Antwort erfolgt und die Häufigkeit der Antworten (Ellwein/Noller 2015, S. 5) . Qualitative Maße dagegen sind Gefühle und Emotionen (He et al. 2013; Ellwein/Noller 2015, S. 5) Die Aufgaben und Herausforderungen des Data-, Web- und Multimedia-Minings entsprechen denen des Data-Minings in sozialen Medien. Bei Letzterem sind aber weitere Besonderheiten zu beachten (Barbier/Liu 2011, S. 332) . Die sozialen Medien beinhalten die eben vorgestellten Dateiformate Text, Bilder, Audio und Video (Kotsiantis et al. 2004) . Da in sozialen Medien jedoch Nutzer miteinander interagieren und somit ein digitales Abbild reeller sozialer Verbindungen entsteht, beinhalten die Beziehungen, in denen die Nutzer zueinander stehen, weitere interessante Informationen. Die Analyse solcher sozialen Netzwerke ermöglicht Rückschlüsse auf die Rolle und Wichtigkeit von Teilnehmern sozialer Netze (Wasserman/Faust 1994; Scott et al. 2005; Stavrianou/Brun 2012, S. 61) . Daher widmet sich der folgende Abschnitt diesem Thema.

Texte zu analysieren ist kein neues Forschungsfeld. Dadurch, dass aber soziale Medien von vielen Menschen mitgestaltet werden, enthalten sie häufig individuelle Meinungen statt sachlicher Berichte. Zwar werden Text-Mining Methoden im Opinion-Mining angewandt, jedoch gilt es auch, die Tendenz der Meinung, ob positiv, negativ oder neutral, herauszufinden. Abschnitt 3.5.2 beschäftigt sich daher mit Opinion-Mining und Sentiment Analysis.

3.5.1 Social Network Analysis

In sozialen Netzwerken sind nicht nur die Dokumentinhalte von Bedeutung, sondern auch, wer sie verfasst und bereitgestellt hat, sowie vor allem deren Beziehung zu und Interaktion mit anderen Nutzern (Wasserman/Faust 1994, S. 6) . Dies zu analysieren ist Aufgabe der Social Network Analysis (SNA). Dabei werden die strukturellen Eigenschaften des Netzwerkes und die Rolle, die Position und das Ansehen der einzelnen Akteure des Netzwerkes analysiert (Liu 2011, S. 270; Stavrianou/Brun 2012, S. 61) . Akteure können Individuen, aber auch Websites, Organisationen oder Vergleichbares sein (Bobrik 2013, S. 13) . Dies bedeutet, dass das Internet als virtuelles soziales Netzwerk oder virtuelle Gesellschaft angesehen werden kann, wobei jede Website als Akteur und jeder Hyperlink als Beziehung zu betrachten ist (Xu et al. 2011b, S. 26) . Folglich kann auch auf soziale Medien eine SNA angewandt werden. Angelehnt daran gibt es zwei SNA-Methoden: PageRank und HITS (Xu et al. 2011b, S. 26) . PageRank ordnet Webpages anhand ihrer Relevanz ausgehend von der Anzahl an in-links (Hastie et al. 2009b, S. 576) (siehe Kapitel 4.4.4), während HITS ( Hypertext Induced Topic Search) mithilfe einer Suchmaschine zunächst eine Liste relevanter Seiten wiedergibt und diese anschließend in zwei weitere Listen aufteilt, zum einen sortiert nach Anzahl anin-links einer Seite, zum anderen nach Anzahl anout-links(Liu 2011, S. 288).In-links bezeichnen Links, die zu einer Seite hinführen, out-links Verbindungen, die von einer Seite wegführen (Liu 2011, S. 271; Zafarani et al. 2014, S. 74) . (Zur Berechnung siehe Kapitel 4.4.3.)

[Abbildungen werden in dieser Leseprobe nicht angezeigt.]

Abbildung 2: Beispiel eines Sozialen Netzwerkes (Liu 2011, S. 271)

Soziale Netzwerke können einfach graphisch dargestellt werden (siehe Abbildung 2, mit i als zentralem Akteur). Die Akteure werden als Knotenpunkte abgebildet – daher auch die Bezeichnung Vertex oder im Englischen node –, die über Linien (edges) verbunden sind, was die Interaktion der Teilnehmer repräsentiert und den Grad der Vernetzung abbildet (Xu et al. 2011b, S. 26) . Es werden die Wichtigkeit und die Prominenz einzelner Akteure oder agierender Gruppen analysiert (Wasserman/Faust 1994, S. 169 f.) . Der Grad der Prominenz hängt dabei von der Zentralität ( centrality) und gleichzeitig vom Prestige des Akteurs ab, was bedeutet, dass die Anzahl an direkten Verbindungen allein, die ein Vertex im Netzwerk hat, nicht unbedingt dessen Wichtigkeit bestimmt (Wasserman/Faust 1994, S. 172) . Es ist darüber hinaus entscheidend, mit wem ein Akteur verbunden ist und wen er indirekt über weitere Knotenpunkte erreichen kann (Wasserman/Faust 1994, S. 172) . Um dies zu verdeutlichen, werden im Folgenden die Begriffe Centrality und Prestige näher erläutert (Wasserman/Faust 1994, S. 169 ff.; Liu 2011, S. 270 ff.; Xu et al. 2011b, S. 25; Bobrik 2013, S. 73 ff.) :

Centrality gibt einen groben Eindruck davon, wie viel Einfluss ein Akteur auf andere Mitglieder des Netzwerkes hat, gemessen an der Anzahl der Beziehungen zu anderen Nutzern. Es wird unterschieden zwischen Degree Centrality,Closeness Centrality und Betweenness Centrality. Das Prestige eines Akteurs ist entscheidend, um eine Aussage über seine Wichtigkeit zu treffen. Zur Erfüllung dieser Aufgabe der SNA muss unterschieden werden, ob ein Akteur überin-links oder out-links in dem Netzwerk verbunden ist (Liu 2011, S. 273). Es gilt, je mehr Bindungen zu einem Knotenpunkt hin führen (in-links), desto prestigeträchtiger ist er (Liu 2011, S. 273). Zur Berechnung des Prestiges werden folglich nur in-links berücksichtigt, das heißt nur gerichtete Graphen und Beziehungen (Zafarani et al. 2014, S. 74) (siehe Kapitel 4.4.3). Hierin liegt auch der größte Unterschied zu den Zentralitätsmaßen, welche sich hauptsächlich auf out-links bzw. ungerichtete Graphen fokussieren (Liu 2011, S. 273; Xu et al. 2011b, S. 27) . Um das Prestige zu berechnen, werden drei unterschiedliche Maße verwendet: Degree Prestige, Proximity Prestige und Rank Prestige (Wasserman/Faust 1994, S. 201 ff.; Liu 2011, S. 273 ff.) . Kapitel 4.4.3 geht näher auf die Berechnung der jeweiligen Zentralitäts- und Prestigemaße ein.

Diese Maße basieren lediglich auf mathematischen Modellen und quantitativen Faktoren. In sozialen Medien werden jedoch Inhalte geteilt, hinter denen häufig eine Intention liegt, die nicht ohne Weiteres von mathematischen Formeln oder Maschinen identifiziert werden kann (Cambria et al. 2013, S. 15) . Sarkasmus oder Ironie sind beispielsweise nur schwerlich durch Formeln erkennbar, sodass Data-Mining hier andere Wege finden muss, um nützliche, valide Informationen zu gewinnen (Maynard et al. 2012, S. 15) . Im folgenden Abschnitt geht es deshalb um Opinion-Mining und Sentiment Analysis.

Ende der Leseprobe aus 173 Seiten

Details

Titel
Data-Mining in Social Media
Untertitel
Methoden und Geschäftsmöglichkeiten für die Anwendung in Social Media
Note
1,0
Autor
Jahr
2016
Seiten
173
Katalognummer
V339820
ISBN (eBook)
9783668391291
ISBN (Buch)
9783960950479
Dateigröße
1683 KB
Sprache
Deutsch
Schlagworte
Data Mining, Soziale Medien, Social Media Mining, Geschäftsmöglichkeiten, Social Network Analysis
Arbeit zitieren
Lena Dirsch (Autor:in), 2016, Data-Mining in Social Media, München, GRIN Verlag, https://www.grin.com/document/339820

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Data-Mining in Social Media



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden