Sentiment-Analyse von "The Sims 4" auf Twitter. Einsatz von Tweepy und TextBlob über ein Python-Skript zur Meinungsanalyse


Dossier / Travail, 2018

17 Pages, Note: 13


Extrait


Inhaltsverzeichnis

1. Einleitung (S. 1)

2. Sentiment Analysis: Definition und Stand der Forschung (S. 1–3)

3. Methodische Grundlagen (S. 3)
3.1. Datenquelle Twitter und Untersuchungsgegenstand The Sims 4 (S. 3–4)
3.2. Verwendete Software und Erläuterung des Python-Skripts (S. 5–9)

4. Durchführung der Sentiment-Analyse (S. 10)
4.1. Betrachtung verschiedener Suchanfragen und deren Ergebnis-Kategorisierung (S. 10–11)
4.2. Beobachtungen zur Zuverlässigkeit der TextBlob -Analyse (S. 11–13)

5. Fazit (S. 13–14)

6. Abbildungsverzeichnis (S. 14)

7. Literaturverzeichnis (S. 14–15)

1. Einleitung

Die Frage danach, wie sich Menschen über bestimmte Ereignisse, Themen, Personen und dergleichen auf einer Meinungs- und Gefühlsebene äußern, ist vor allem heutzutage, da theoretisch jedermann über eine öffentliche Stimme dank des Internets und seiner diversen sozialen Plattformen verfügt, besonders spannend und aufschlussreich. Unter anderem davon inspiriert ist das Forschungsfeld der Sentiment Analysis, welches sich eben damit auseinandersetzt, auf welche Arten und Weisen Meinungen, Gefühle und Stimmungen von Menschen zu den unterschiedlichsten Dingen zum Ausdruck gebracht werden, und wie sie sich ggf. kategorisieren und quantifizieren lassen – sowohl für wissenschaftlich geprägte Zwecke als auch für diverse Marketing-Absichten (vgl. Pak et al. 2010, S. 1320). Das Internet als eine schier unendliche Quelle von verfügbarem Datenmaterial für ebendiese Zwecke und Absichten nimmt dabei eine besonders tragende Rolle ein, da in einer Vielzahl der sozialen Netzwerke und sozialen Medien eine enorme Bandbreite von unterschiedlichen alltäglichen und weniger alltäglichen Ereignissen, Themen, Personen etc. von verschiedensten Menschen diskutiert und bewertet werden (vgl. ebd.).

Der Schwerpunkt dieser Hausarbeit liegt indes auf einem bestimmten Untersuchungsgegenstand, der für eine eigene Sentiment-Analyse herangezogen werden soll. Bei diesem Untersuchungsgegenstand handelt es sich um das bisweilen kontroverse Videospiel The Sims 4, welches insbesondere in jüngerer Zeit auf unterschiedlichen sozialen Plattformen im Internet diskutiert worden ist. Im Vordergrund steht dabei die Annahme, dass es aufgrund seiner mitunter kontroversen Natur vor allem häufig aus einer kritischen, wenn nicht sogar negativen Perspektive heraus diskutiert und bewertet wird; daraus schließt sich die Hypothese, dass sich entsprechend eine wesentliche Anzahl von negativ besetzten Meinungen und Gefühlen auf der ausgewählten sozialen Plattform, nämlich Twitter, wiederfinden lassen sollte. Bevor sich dem Schwerpunkt der vorliegenden Hausarbeit gewidmet wird, wird ein Überblick über den Stand der Forschung von Sentiment Analysis vollzogen; im Zuge dessen wird ebenso erläutert, was sie umfasst und zu bewerkstelligen versucht. Im Anschluss daran wird das methodische Vorgehen erläutert, das der eigenen Sentiment-Analyse zugrunde liegt: Zunächst einmal wird auf die soziale Plattform eingegangen, auf der das Datenmaterial zum Untersuchungsgegenstand gesammelt wird. Auch der Untersuchungsgegenstand selbst wird ein wenig genauer beleuchtet. Die für die Sentiment-Analyse verwendete Software wird dann vorgestellt; gearbeitet wird hier mit einer integrierten Entwicklungsumgebung für Python – PyCharm – und den Python-Bibliotheken Tweepy und TextBlob. Daran schließt sich die schrittweise Erklärung des Python-Skripts an, mit dem die Sentiment-Analyse durchgeführt wird. Eine erste kritische Auswertung der Ergebnisse und ein abschließendes Fazit komplettieren die vorliegende Hausarbeit.

2. Sentiment Analysis: Definition und Stand der Forschung

Sentiment Analysis bzw. Opinion Mining stellt ein wesentliches Forschungsfeld im Natural Language Processing dar und umfasst die Auseinandersetzung mit und die Analyse von menschlichen Empfindungen, Gefühlen und Beurteilungen zu unterschiedlichen Entitäten, Ereignissen und Themen, insbesondere in großen Datensammlungen (vgl. Evangelopoulos et al. 2016, S. 261; vgl. weiterhin Agarwal et al. 2011, S. 31). Herausgebildet hat sich das Forschungsfeld der Sentiment Analysis um das Jahr 2000; es lässt sich also als ein relativ neues Forschungsfeld klassifizieren, das insbesondere durch die zunehmende Verwendung von sozialen Netzwerken und sozialen Medien im Internet auf stetig wachsende Datenmengen Zugriff erhält und an Auftrieb gewinnt (vgl. Agarwal et al. 2011, S. 30). Angetrieben von dieser zunehmenden Verwendung von sozialen Netzwerken und sozialen Medien ist somit auch der Wunsch von diversen Unternehmen, Organisationen etc., ebensolche Netzwerke und Medien nach denjenigen Daten zu durchforsten, die ihnen Aufschluss darüber geben, welche Meinungen, Gefühle und dergleichen von ihrer (potenziellen) Kundschaft über ihre Produkte und/oder Serviceleistungen geäußert werden. Entsprechend ist auch vermehrt das Entstehen von Unternehmen zu verzeichnen, die Sentiment Analysis als eine Dienstleistung anbieten (vgl. Kouloumpis et al. 2011, S. 538; vgl. weiterhin Dayal et al. 2011, S. 275). Hierin lässt sich also ein zentrales Anwendungsfeld dieses Forschungsfelds verorten.

Das Verfahren der Sentiment Analysis stützt sich in der Regel auf eine Art Lexikon, in dem Wörtern positive, negative und neutrale Empfindungseigenschaften zugeschrieben werden und die demgemäß in der zu analysierenden Datenmenge ausfindig gemacht werden sollen; diese Wörter werden dann auch als Sentiment Terms bezeichnet (vgl. Evangelopoulos et al. 2016, S. 261). Zu beachten gilt an dieser Stelle jedoch, dass der – positive, negative oder neutrale – Bedeutungsgehalt dieser Sentiment Terms von unterschiedlichen Faktoren beeinflusst werden kann, die sich in einem solchen Lexikon nicht unbedingt festhalten lassen. Zu diesen Faktoren zählt u.a. der unmittelbare Kontext, in dem sie verwendet werden, der beispielsweise wiederum von Ironie, Sarkasmus, Humor usw. beeinflusst werden kann (vgl. ebd.). Entscheidend ist darüber hinaus das Vorhandensein und die Häufigkeit der positiven, negativen und neutralen Sentiment Terms, um ein Dokument bzw. eine Dokumentensammlung, eine Phrase oder einen Aspekt derselben als positiv, negativ oder neutral einzuordnen (vgl. ebd., S. 264). Insgesamt lässt sich Sentiment Analysis demnach auf den drei folgenden Ebenen vollziehen:

- Dokumentebene: Ein gesamtes Dokument bzw. eine gesamte Dokumentensammlung wird in seiner Gesamtheit als positiv, negativ oder neutral klassifiziert.
- Satzebene: Jeder einzelne Satz eines Dokuments oder einer Dokumentensammlung wird als positiv, neutral oder negativ klassifiziert.
- Aspekt- bzw. Eigenschaftsebene: Auf dieser detaillierten Ebene werden einzelne Aspekte oder Eigenschaften, die in den Sätzen/dem Dokument beurteilt o.ä. werden, als positiv, neutral oder negativ klassifiziert.

Ein weiterer und ebenso zentraler Aspekt der Sentiment Analysis besteht in der Auseinandersetzung mit der Polarität und Subjektivität von Wörtern und Phrasen bzw. Sätzen, da beide Eigenschaften maßgeblich zu der Bestimmung von Sentiment Terms als positiv, negativ oder neutral beitragen (vgl. Kouloumpis et al. 2011, S. 538). Hier wird mitunter insbesondere die Arbeit mit Trainingsdaten in den Mittelpunkt gerückt, die bspw. bei Analysen, die auf Basis von Twitter-Daten erfolgen, mithilfe von Emoticons 1 oder Hashtags 2 erstellt wird. (vgl. ebd.; vgl. weiterhin Agarwal et al. 2011, S. 31). Twitter stellt dabei insgesamt eine ergiebige und zudem äußerst zeitgenössische Datenquelle für Sentiment Analysis dar, da auf Twitter ein breites Spektrum von unterschiedlichen Entitäten, Ereignissen und Themen diskutiert wird – damit geht allerdings auch die Herausforderung einher, sich thematisch festzulegen und einzuschränken, um nicht von der potenziellen Masse an Daten überfordert zu werden. Als das Forschungsfeld der Sentiment Analysis noch im Begriff war, sich als solches herauszukristallisieren und zu manifestieren, wurden erst einmal vor allem Daten in Onlinerezensionen und Nachrichtenartikeln gesammelt (vgl. Kouloumpis et al. 2011, S. 538). Mittlerweile hat sich jedoch der Fokus deutlich auf Plattformen wie Twitter, Facebook usw. verschoben.

Es handelt sich also bei Sentiment Analysis um ein vergleichsweise neues Forschungsfeld, welches sich gegenwärtig vor allem auf die Datensammlung und -analyse in solchen Webservices konzentriert, die es Menschen ermöglichen, ihre Meinungen, Gedanken und Gefühle zu allerlei unterschiedlichen Dingen zum Ausdruck zu bringen. Twitter stellt dabei eine besonders interessante und potenziell aufschlussreiche Plattform dar, die im nächsten Kapitel detailliert wird.

3. Methodische Grundlagen

Nachdem nun ein erster Einblick in das Forschungsfeld der Sentiment Analysis erfolgt ist, sollen nun diejenigen methodischen Grundlagen vorgestellt werden, die für die eigene Sentiment-Analyse in der vorliegenden Hausarbeit relevant sind. Zunächst wird auf die Quelle für das in der Analyse verwendete Datenmaterial eingegangen – Twitter –, und auch der damit zusammenhängende Untersuchungsgegenstand – The Sims 4 – soll hinsichtlich seiner kontroversen Natur kurz umrissen werden. Im Anschluss daran wird sowohl in die verwendete Software als auch die benötigten Python-Bibliotheken eingeführt, damit schließlich das Python-Skript für die eigene Sentiment-Analyse Schritt für Schritt erläutert werden kann.

3.1. Datenquelle Twitter und Untersuchungsgegenstand The Sims 4

Twitter ist ein öffentlicher und webbasierter Service, der es seinen Nutzern erlaubt, mithilfe von kurzen Nachrichten – max. 280 Zeichen sind erlaubt – eine Art der asynchronen (Quasi-)Kommunikation aufrechtzuhalten. Das primäre Ziel von Twitter ist es, auf die Frage „Was passiert gerade?“ kurz und bündig antworten zu können, woraus sich auch die Beschränkung auf 280 Zeichen pro Tweet ergibt. Konversationen lassen sich auf Twitter führen, indem andere Benutzer mithilfe des @-Zeichens angesprochen – getaggt – werden. Bemerkenswert daran ist, dass auf Twitter diesbezüglich keine Restriktionen vorherrschen; jeder Benutzer kann auf den Tweet eines anderen Benutzers sogleich reagieren und antworten, ohne ihn zwangsläufig kennen zu müssen, und auch Unternehmen, politische Figuren und Berühmtheiten, die einen eigenen Account auf Twitter pflegen, sind hiervon nicht ausgenommen. Daher bietet Twitter seinen Benutzern indirekt eine Plattform an, die sich zum Äußern von Beschwerden oder zum Hervorheben von Missständen gut eignet, da es zumindest über das Potenzial verfügt, diejenigen Personen, Unternehmen oder Organisationen direkt zu erreichen, die für einen Missstand o.ä. verantwortlich sind (vgl. Murthy 2013, S. 3): Twitter „[…] has redefined the way in which customers complain.“ (ebd., S. 13) Die Beliebtheit von Twitter lässt sich zum einen also auf diesen Sachverhalt zurückführen, zum anderen ist es aber auch deswegen populär, weil es vergleichsweise einfach zu benutzen ist und wenig Lern- und Zeitaufwand erfordert (vgl. ebd., S. 1).

Bei der Frage danach, ob es sich bei Twitter um ein soziales Netzwerk oder um ein soziales Medium handelt, sollte man sich zunächst folgende Definitionsansätze von sozialen Netzwerken und sozialen Medien vor Augen halten:

- Soziale Netzwerke lassen sich festlegen als Webservices, die es ihren Benutzern erlauben, ein öffentliches oder zumindest semi-öffentliches Profil zu erstellen, das sich innerhalb eines beschränkten Systems befindet insofern, als es sich in einen Kreis von anderen Benutzern eingliedern lässt, die wiederum allesamt in einer bestimmten Verbindung zueinander stehen (vgl. ebd., S.7f). Anders gesagt: Soziale Netzwerke dienen in der Regel primär dazu, den Kontakt zu Freunden, Familien oder Bekannten aufrechtzuerhalten. Zu ihnen zählen bspw. Facebook und LinkedIn (vgl. ebd., S. 8).
- Soziale Medien hingegen können als elektronische Werkzeuge aufgefasst werden, die weitläufig verfügbar und kostenfrei bzw. kostengünstig sind und in erster Linie der freien Informationsveröffentlichung sowie dem uneingeschränkten Informationszugriff dienen (vgl. ebd.). Weiterhin können sie dazu genutzt werden, in Gemeinschaft mit anderen Menschen auf bestimmte politische, soziale usw. Ziele hinzuarbeiten und zwischenmenschliche Beziehungen aufzubauen (vgl. ebd.). Im Gegensatz zu sozialen Netzwerken ist ihr Umfeld oftmals weniger oder gar nicht auf Freunde, Familie oder Bekannte beschränkt. Primär sind sie jedoch ein veröffentlichungsorientiertes Medium, welches sich eben durch den Zusatz „soziale“ vor allem auch von den traditionellen Medien abzugrenzen versucht (vgl. ebd.).

Twitter lässt sich demnach als ein soziales Medium einstufen, das weiterhin auch eine Handvoll Gemeinsamkeiten zu Blogs aufweist, wenngleich natürlich die einzelnen Beiträge auf Twitter deutlich kürzer ausfallen. Fasst man jedoch diese Beiträge zu einem Korpus zusammen, dann kann sich durchaus das ein oder andere Narrativ herauskristallisieren, wenngleich es durchaus sprunghaft sein mag (vgl. ebd.). Insofern bietet es sich jedoch an, Twitter nicht nur als einen Teil der sozialen Netzwerke aufzufassen, sondern auch als einen Microblog zu definieren (vgl. ebd.). Für Microblogging-Plattformen gilt gemeinhin, dass ihre Benutzer ein öffentliches Profil auf ihnen anlegen, und über dieses kurze und öffentliche Nachrichten oder Updates übertragen; diese Nachrichten oder Updates müssen dabei nicht unbedingt an andere Benutzer gerichtet sein, können jedoch in der Regel von jedem eingesehen werden – bei Twitter, Tumblr und anderen Microblogging-Plattformen muss dabei nicht einmal ein eigener Account vorhanden sein, um einen Einblick in die öffentlichen Profile von ihren Benutzern zu erhalten (vgl. ebd., S. 10). Indessen können Benutzer dieser Plattform selbst entscheiden, über wessen Nachrichten oder Updates sie gezielt informiert werden möchten (vgl. ebd.).

Wie bereits zuvor dargelegt worden ist, bietet sich Twitter als Grundlage für die Zusammenstellung von Datenmaterial für Sentiment Analysis hervorragend an; der thematische Fokus des Datenmaterials für die eigene Analyse in der vorliegenden Hausarbeit liegt indes auf einem Videospiel – The Sims 4 –, das erst kürzlich aufgrund einer Kontroverse eben u.a. auf Twitter diskutiert worden ist. Ausgelöst wurde diese Kontroverse durch die Bekanntgabe eines DLCs3 für das Videospiel, welches nicht nur den Besitz des Basisspiels als solches voraussetzt, sondern darüber hinaus von bereits veröffentlichtem DLC-Inhalt abhängt, damit auf die neuen DLC-Features vollständig zugegriffen werden kann (vgl. Jovic 2018). Entsprechend wird vermutet, dass sich aufgrund dieser kontroversen Natur insbesondere dieses DLCs für das Videospiel eine Vielzahl von unterschiedlichen und ggf. polarisierenden Meinungen auf Twitter diesbezüglich wiederfinden lässt.

3.2. Verwendete Software und Erl ä uterung des Python-Skripts

Als integrierte Entwicklungsumgebung (IDE) wird in der vorliegenden Hausarbeit PyCharm in der Version 2018.1 und als kostenfreie Open-Source Community Edition verwendet. Um auf die Twitter API (Application Programming Interface 4 ) über das Python-Skript Zugriff zu erhalten, wird Tweepy in der Version 3.6.0 installiert. Für die eigentliche Sentiment-Analyse wird TextBlob in der Version 0.15.1 installiert: TextBlob wird für das Verarbeiten von textuellen Daten genutzt; zu diesen Verarbeitungsmöglichkeiten gehören bspw. Part-Of-Speech-Tagging, Übersetzungsvorgänge und eben auch Sentiment Analysis. Sowohl Tweepy als auch TextBlob lassen sich über das Dialogfenster für den Project Interpreter in PyCharm zügig einrichten, sobald der eigentliche Interpreter – in diesem Falle ein Standard-Interpreter für Python – konfiguriert worden ist. Wie diese Python-Bibliotheken für das Skript im Detail genutzt werden, wird im nächsten Abschnitt dieses Kapitels expliziert.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1.: Ausschnitt der Benutzeroberfl ä che von PyCharm: Zu sehen ist der Project Interpreter, ü ber den die Einrichtung des Python-Interpreters und diverser Bibliotheken f ü r das verwendete Python-Skript erfolgt. Hervorgehoben ist die Schaltfl ä che, ü ber die sich die ben ö tigten Bibliotheken installieren lassen.

[...]


1 Die Kategorisierung der Sentiment Terms erfolgt dann bspw. über :-)/�, die als positiv definiert werden, während negative Sentiment Terms auf Basis von :-(/☹ klassifiziert werden.

2 Hashtags, zu erkennen am #-Symbol, werden insbesondere auf Twitter häufig dazu genutzt, ein Thema, ein Ereignis etc. hervorzuheben; somit werden einzelne Tweets durch die Verwendung von Hashtags oftmals entsprechend einem Thema, Ereignis etc. zugeordnet (vgl. Murthy 2013, S. 3).

3 DLC steht abgekürzt für Downloadable Content. Dabei handelt es sich um zusätzliche Inhalte für Videospiele, die in der Regel digital über unterschiedliche Plattformen vertrieben werden.

4 Ein Application Programming Interface – eine Programmierschnittstelle – erlaubt den Zugriff auf (Teile einer) Software durch andere Softwareprogramme.

Fin de l'extrait de 17 pages

Résumé des informations

Titre
Sentiment-Analyse von "The Sims 4" auf Twitter. Einsatz von Tweepy und TextBlob über ein Python-Skript zur Meinungsanalyse
Université
Justus-Liebig-University Giessen
Note
13
Auteur
Année
2018
Pages
17
N° de catalogue
V539423
ISBN (ebook)
9783346194244
ISBN (Livre)
9783346194251
Langue
allemand
Mots clés
einsatz, meinungsanalyse, python-skript, sentiment-analyse, sims, textblob, tweepy, twitter
Citation du texte
Sarah Insacco (Auteur), 2018, Sentiment-Analyse von "The Sims 4" auf Twitter. Einsatz von Tweepy und TextBlob über ein Python-Skript zur Meinungsanalyse, Munich, GRIN Verlag, https://www.grin.com/document/539423

Commentaires

  • Pas encore de commentaires.
Lire l'ebook
Titre: Sentiment-Analyse von "The Sims 4" auf Twitter. Einsatz von Tweepy und TextBlob über ein Python-Skript zur Meinungsanalyse



Télécharger textes

Votre devoir / mémoire:

- Publication en tant qu'eBook et livre
- Honoraires élevés sur les ventes
- Pour vous complètement gratuit - avec ISBN
- Cela dure que 5 minutes
- Chaque œuvre trouve des lecteurs

Devenir un auteur