Sentiment Analysis auf Basis von R und Twitter. Eine Analyse von Tweets zum Hashtag "Amazon"


Projektarbeit, 2019

31 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung

2 Grundlagen
2.1 Business Intelligence
2.2 Sentiment Analyse
2.3 Herausforderungen
2.4 Vorgehensmodelle
2.4.1 Lexikonbasierter Ansatz
2.4.2 Maschinelle Lernverfahren
2.4.3 Hybrides Lernverfahren

3 Anwendung einer Stimmungsanalyse in R
3.1 Vorbereitung
3.2 Datensammlung
3.3 Aufbereitung der Daten
3.4 Lexikonbasierte Analyse und Darstellung der Ergebnisse
3.5 Bewertung der Ergebnisse

4 Fazit

Anhang

Literatur- und Quellenverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1 - Klassifikation und Vorgehensmethoden einer Stimmungsanalyse

Abbildung 2 - Phasen der Stimmungsanalyse

Abbildung 3 - Balkendiagramm zur Polarität der Tweets

Abbildung 4 - Balkendiagramm zu den Emotionen der Tweets

Abbildung 5 - Boxplot Stimmungsanalyse

Tabellenverzeichnis

Tabelle 1 - Ausschnitt der gesammelte Datensätze über Twitter

Tabelle 2 – Ausschnitt der bereinigten Datensätze

Tabelle 3 - Stimmungsbewertung der ersten fünf Tweets

1 Einleitung

Die Umwandlung von Informationen in digitale Formate wird als Digitalisierung bezeichnet und ist ein Prozess, der seit den späten 1950er Jahren vorangetrieben wird.1 Seitdem hat die Digitalisierung und die Vernetzung zu grundlegenden Veränderungen in der Gesellschaft und in der Wirtschaft geführt. Dabei hat die weltweite technische Vernetzung zu neuen Möglichkeiten der Kommunikation zwischen Unternehmen, Wettbewerb und Kunden geführt. Zusätzlich unterstützt dieser Wandel die Entgrenzung, d.h. die Aufhebung von ehemals bestehenden Grenzen. Damit werden physische, regionale und zeitliche Eingrenzungen unbedeutender und Unternehmen können mit einem geringen Aufwand global agieren.2 Seit Beginn des Internet-Zeitalters, Mitte der 1990er Jahre, hat sich das Konsumverhalten der Kunden beim Kauf von Produkten verändert. In der heutigen Zeit können Konsumenten auf eine Vielzahl von Produkten zurückgreifen, und diese unabhängig von Ort und Zeit, über Online-Plattformen erwerben. Zur erfolgreichen Entwicklung der digitalen Wirtschaft haben vor allem die Geschäftsmodelle, Strukturen und Technologien der US-amerikanischen Unternehmen Google, Apple, Facebook und Amazon (kurz: GAFA) beigetragen.3 Jeff Bezos, der Gründer von Amazon, leistete Pionierarbeit in dem er seine Vision verwirklichte und mit seiner Unternehmung den globalen Online-Handel vorangetrieben hat.4 Im Jahr 1995 wurde Amazon als Online-Buchhandel gegründet. Heute agiert der Handelsriese als globaler Marktplatzbetreiber für eine breite Maße unterschiedlicher Produkte.5 In der Literatur wird der Erfolg von Amazon damit begründet, dass die Geschäftsprozesse dieses Unternehmens auf den Nutzen des Kunden ausgerichtet sind. Die Kundenorientierung gepaart mit technologischen Innovationen führen bei Amazon zu einer überdurchschnittlichen Kundenzufriedenheit. Dabei soll jeder Einkauf eine exzellente Erfahrung hervorbringen, um die Kunden an das Unternehmen zu binden. Beispiele, die diesen Prozess unterstützen sind z.B. ein kostenfreier Versand, kulante Retourenfristen und umfangreiche Möglichkeiten zum Kontakt mit dem Unternehmen.6 Auf der anderen Seite steht Amazon auch häufig in der Kritik. Amazon bietet beispielsweise den sprachgesteuerten digitalen Assistenten Alexa an. Es verfügt über viele komfortable Funktionen, kann z.B. Bestellungen ausführen oder das Wetter vorhersagen. Dieser Trend bringt jedoch auch Bedenken hinsichtlich der Privatsphäre mit sich. An dieser Stelle kritisieren Experten z.B. unzureichende Sicherheitsvorkehrungen, da die elektronische Kommunikation manipuliert werden und somit private Haushaltsgespräche, ohne die Kenntnis der Kunden aufgenommen werden können.7 Mit Hinblick auf die zuvor genannten Informationen, soll im Rahmen dieser Arbeit, die aktuelle Stimmungslage, die sich auf Amazon bezieht ermittelt werden und dabei folgende Fragen beantwortet werden:

- Wie ist die Polarität der Stimmung, in sozialen Medien gegenüber Amazon aufgestellt?
- Welche Emotionen verbinden Amazon-Stakeholder mit diesem Unternehmen?

Um auf diese Fragen einzugehen, wird die wissenschaftlichen Methode Literaturanalyse mit den Phasen Literaturrecherche und Literaturauswertung und die Sentiment Analysis (zu Deutsch: Stimmungsanalyse) als unterstützende Methode herangezogen. Mit der Einleitung zusammen wird diese Arbeit in vier Kapitel aufgeteilt. Im zweiten Kapiteln werden theoretische Grundlagen erläutert. Im dritten Kapitel wird die Durchführung der Sentiment-Analyse systematisch dargestellt und das Ergebnis dieser Arbeit vorgestellt. Diese Ausarbeitung wird abschließend im letzten Kapitel das Ergebnis dieser Arbeit zusammenfassen und einen Ausblick geben.

2 Grundlagen

2.1 Business Intelligence

Bereits in den 60er Jahren begannen die ersten Ansätze, Führungskräfte eines Unternehmens durch den Einsatz von IT-Systemen zu unterstützten. Im Laufe der Zeit wurden spezifische, den Benutzern zugeordnete Einzelsysteme entwickelt, die erfolgreich im Management eingesetzt werden konnten. In diesem Zuge entstand in den 80er Jahren der Sammelbegriff Management Support Systems (kurz: MSS).7 Einer der Hauptakteure dieses Ansatzes, Scott-Morton, definierte den Begriff MSS als „the use of computers and related information technologies to support managers“.8 In den 90er Jahren wurde der Begriff MSS, jedoch in der betrieblichen Praxis durch den Begriff Business Intelligence (kurz: BI) ersetzt. Der Begriff BI ist in der Literatur jedoch nicht einheitlich definiert.9 Unter diesem Begriff haben sich Begriffsgebilde im Kontext der entscheidungsunterstützenden Systeme etabliert, die eine Vielzahl von verschiedenen Ansätzen zur Analyse und Auswertung von Geschäftsprozessen zur Verfügung stellen. Ein effizientes BI-System zeichnet sich unabhängig vom Anwendungsfall dadurch aus, dass es Informationen pünktlich und fehlerfrei an berechtigte Anwender übergibt.10 Eine BI-Strategie verfolgt das Ziel, effizientere Entscheidungen als der Wettbewerb zu treffen und Antworten auf kritische Fragen zu bekommen, indem Informationen in Wissen umgewandelt werden.11

2.2 Sentiment Analyse

Einen Anwendungsbereich von BI stellt Text Mining dar. Es beschäftigt sich mit der Analyse von unterschiedlichen Textdaten, um bisher unbekannte Zusammenhänge oder Trends aus bestehenden Informationen aufzudecken.12 Die Stimmungsanalyse ist ein Teilgebiet des Text Minings und dient zur Identifizierung und Analyse der Stimmungen und Gefühle von Menschen, in Bezug auf bestimmte Sachverhalte, die aus Texten abgeleitet werden.14 Durch die zunehmende Beliebtheit von Online-Plattformen wie Blogs, Foren oder soziale Netzwerke, nehmen benutzergenerierte Informationen in Form von Bewertungen, Kommentaren und Meinungen über unterschiedliche Dienste, Produkte, Trends und Veranstaltungen wachsend zu. Die Hauptaufgabe der Stimmungsanalyse ist es an dieser Stelle die Tonalität eines Textes im richtigen Kontext zu extrahieren und in verschiedene Kategorien einzuordnen.13 Die Fähigkeit, die Gefühle von Personen zu messen, bietet eine breite Vielfalt praktischer Anwendungen an. Dadurch können beispielsweise Online-Nachrichten analysiert und somit die allgemeingültige Polarität zu bestimmten Themen untersucht werden. Mit dem Einsatz einer Stimmungsanalyse können Unternehmen die Stimmung von online veröffentlichten Kommentaren sammeln und analysieren, um die Meinungen der Verbraucher zu ihren Produkten zu bewerten, um dann beispielsweise die Wirksamkeit von Werbekampagnen zu messen.14 Im Allgemeinen lässt sich die Anwendung einer Stimmungsanalyse in die Dokument-, Satz- und Entität-Ebene aufteilen. Die Aufgabe der Dokument-Ebene ist es, die Polarität eines ganzen Dokumentes zu klassifizieren. Auf der Satz-Ebene besteht die Aufgabe darin, die Polarität jedes einzelnen Satzes zu prüfen. Diese Ebene steht in enger Verbindung mit der Entität-Ebene, bei der objektive Sätze, die sachliche Informationen beinhalten, von subjektiven Sätzen unterschieden werden, die subjektive Ansichten ausdrücken. Im Vergleich zur Dokument- und Satz-Ebene befasst sich die Entität-Ebene damit, die Stimmung einer Entität zu einem bestimmten Objekt zu erfassen.15 Die folgende Auflistung stellt mögliche Stimmungsanalysen aus der Literatur vor, die bereits in vorangehenden Arbeiten behandelt wurden:

- Berhane hat z.B. eine Auswertung von Tweets über Donald Trump, nach seiner Wahl aufgestellt. Dabei konnte eine geographische, auf US-Staaten gerichtete Stimmungsanalyse, zu Tweets durchgeführt werden.16
- Annie R et al. haben, in ihrer Arbeit aufgezeigt, wie Bewertungen von Flugpassagieren im Rahmen der Stimmungsanalyse behandelt werden können. Zur Umsetzung dieser Analyse wurden Daten aus unterschiedlichen Quellen wie Foren und sozialen Netzwerken bezogen.17

2.3 Herausforderungen

Die Komplexität der menschlichen Kommunikation beeinflusst die Effizienz einer Stimmungsanalyse. Daher erfordert der Einsatz einer Stimmungsanalyse ein grundlegendes Verständnis der expliziten, impliziten, semantischen und syntaktischen Regeln einer Sprache. Beispiele sind der Einsatz von Humor, Ironie oder Sarkasmus. In diesen Fällen muss der Kontext einer Nachricht bekannt sein, um die tatsächliche

Nachricht zu verstehen, da eine Person eine Aussage treffen kann, aber durch den Einsatz verschiedener Sprachmittel eigentlich das Gegenteil aussprechen will. Beispielsweise könnte die Aussage getroffen werden: Schönes Hemd. Diese Aussage klingt zunächst positiv, wenn es jedoch sarkastisch gemeint ist, wird es als negativ eingestuft. Auf der anderen Seite können Begriffe wie böse, krank oder schlecht, die negativ assoziiert werden, je nach Kontext eine andere Stimmungsorientierung aufweisen. Ein Beispiel dafür ist die Aussage: Mein neues Auto ist krank! Dieses Beispiel impliziert eine positive Stimmung in Bezug zum Auto. Eine Stimmungsanalyse wird in der Regel von einem Konstrukt durchgeführt, das auf ein bestimmtes Thema fokussiert ist. Das zu analysierende Dokument könnte aber auch irrelevante Informationen beinhalten, die die themenbezogene Analyse verfälschen kann. Eine Stimmungsanalyse und die dazu eingesetzten Methoden und Hilfsmittel können beispielsweise bei der Analyse von Autobewertungen ein zuverlässiges Ergebnis liefern. Dasselbe Konstrukt würde bei Computerbewertungen aber nicht das gewünschte Ergebnis liefern, da an dieser Stelle eine andere Restriktion zur Analyse optimaler wäre.18

2.4 Vorgehensmodelle

Im Rahmen einer Stimmungsanalyse wird zwischen dem lexikonbasierten, dem Machine Learning (kurz: ML) und dem hybriden Ansatz unterschieden. Beim lexikonbasierten Ansatz wird ein Stimmungslexikon verwendet, das eine Sammlung von Begriffen mit vordefinierten Stimmungen beinhaltet. Der ML Ansatz wendet unterschiedliche ML-Algorithmen an. Der hybride Ansatz ist eine weitere Möglichkeit der Stimmungsanalyse, der die beiden vorangehenden Vorgehensmethoden mit einander kombiniert.19

Abbildung in dieser Leseprobe nicht enthalten

Quelle: In Anlehnung an Medhat et al. (2014), S. 1095.

Abbildung 1 - Klassifikation und Vorgehensmethoden einer Stimmungsanalyse

2.4.1 Lexikonbasierter Ansatz

Bei dem lexikonbasierten Ansatz wird die Stimmungsorientierung eines Textinhaltes auf Grundlage von vordefinierten Listen ermittelt. Diese Liste in Form eines Lexikons enthält Wörter, Phrasen oder Redewendungen, die mittels einer Stimmungsorientierung mit Werten wie positiv, negativ oder neutral gleichgesetzt werden. Unter Einsatz des Lexikons erhält jede extrahierte Textinformation, eine Stimmungsorientierungsbewertung.20 Zur Erstellung dieser Liste wird zwischen der wörterbuchbasierenden und der korpusbasierenden Methode unterschieden.21 Bei der wörterbuchbasierenden Methode wird zunächst eine geringe Anzahl an Stimmungswörtern, mit einer festgelegten Stimmungsorientierung manuell in eine sogenannte Seed-Liste eingetragen. Diese manuelle Liste wird dann von einem Algorithmus automatisch erweitert, indem für jedes Wort Antonyme und Synonyme aus Wörterbüchern, wie z.B. WordNet gesucht werden. Die neu gefundenen Wörter werden in die Starliste eingetragen. Dieser iterative Prozess wiederholt sich und stoppt, wenn keine neuen Wörter mehr zu finden sind.24 Bei Bedarf kann das somit entstandene Stimmungslexikon manuell geprüft und auch nachträglich bearbeitet werden. Die korpusbasierte Methode dient zur Problemlösung, um Stimmungswörter mit kontextspezifischen Ausrichtungen zu finden. Diese Methode wird unter der Verwendung eines statistischen oder semantischen Vorgangs durchgeführt. Es ist möglich, ein Lexikon auf Grundlage mehrerer Dokumente zu erstellen, indem die Häufigkeit des Auftretens des Wortes in unterschiedlichen Texten untersucht wird. Damit kann die Polarität eines Wortes identifiziert werden und damit das Problem der Nichtverfügbarkeit von Wörtern überwunden werden. Wenn ein Wort beispielsweise in positiven Texten häufiger vorkommt ist seine Polarität positiv, andernfalls wenn es bei negativen Texten häufiger vorkommt ist die Polarität negativ. Synonyme die im selben Kotext häufig zusammen vorkommen, weisen dieselbe Polarität auf. Damit kann die Polarität von unbekannten Wörtern bewertet werden, indem die relative Häufigkeit des gemeinsamen Auftretens mit anderen Wörtern ermittelt wird. Die semantische Methode weist Wörtern, die semantisch miteinander Verknüpft sind je nach Anwendungsfall einen Stimmungswert zu. Aus WordNet können beispielsweise verschiedene Arten von semantischen Zusammenhängen zwischen Wörtern entnommen werden, die zur Berechnung der Stimmungspolarität eines Wortes, je nach Anwendungsfall eingesetzt werden.22

2.4.2 Maschinelle Lernverfahren

ML ist eine Form der künstlichen Intelligenz und stellt ein System dar, das nicht explizit programmiert wird, sondern aus Daten lernt. Dabei werden unterschiedliche Algorithmen eingesetzt, die iterativ zur verbesserten Datengewinnung beitragen.23 In Abhängigkeit des Anwendungsfalls werden zwischen den beiden ML-Methoden Supervised Learning (kurz: SL) und Unsupervised Learning (kurz: UL) unterschieden.24 Die Methode SL, zu Deutsch überwachtes Lernen, beginnt in der Regel mit einem festgelegten Datensatz und einem Grundverständnis dafür, wie Daten klassifiziert werden. Die Aufgabe besteht darin gewisse Muster in den zu analysierenden Daten zu erkennen.28 An dieser Stelle kommen die Methoden Clusteranalyse und Regressionsanalyse zum Einsatz. Wenn beispielsweise das Ziel verfolgt wird zu prognostizieren, ob ein Haus in Abhängigkeit seiner Größe weniger oder mehr als einen bestimmten Preis kosten wird, dann wird die Clusteranalyse eingesetzt, bei der Häuser je nach dem Preis in zwei unterschiedliche Kategorien eingeordnet werden. Wenn aber eine Prognose über die Preise von Immobilien in Abhängigkeit der Größe erstellt werden soll, dann ist dies ein Beispiel für die Regressionsanalyse.25

Im Gegensatz zur SL-Methode werden in der Methode UL, zu Deutsch unbewachtes Lernverfahren, dem System im Vorfeld keine Zielwerte vom Anwender übergegeben. In diesem Verfahren hat der Algorithmus die Aufgabe eigenständig Muster in den Datensätzen zu erkennen, um daraufhin Cluster zu bilden. Durch diesen Prozess kann das System Erkenntnisse aufdecken, die dem Anwender nicht bewusst sind. Ein mögliches Anwendungsfeld wäre an dieser Stelle, die Bildung von Clustern in sozialen Netzwerken. Beispielsweise könnte dieses Lernverfahren aufzeigen, dass Personen denen häufig Katzenfotos gefallen dazu tendieren falschen Nachrichten zu glauben und diese positiv zu kommentieren.26

2.4.3 Hybrides Lernverfahren

Aus der Literatur können verschiedene Herangehensweisen entnommen werden, um eine Stimmungsanalyse mittels einer hybriden Vorgehensweise zu implementieren. Einen möglichen Ansatz haben dabei Balage Filho und Pardo vorgestellt. Dieser Ansatz wurde in die Phasen Datensammlung, Datenaufbereitung, Klassifikation der Daten mittels vorgegebener Regeln und der lexikonbasierten Methode, sowie Klassifikation der Daten mittels ML-Verfahren aufgeteilt. Zunächst werden die relevanten Datensätze gesammelt und für die Klassifikation vorbereitet. Danach wird die Polarität eines Datensatzes auf Satzeichen geprüft, die eine Stimmung deuten können. Der nächste Schritt summiert die Polaritätswerte jedes Wortes im Text, um eine Gesamtwertung für den jeweiligen Datensatz aufzustellen. Der ML-Klassifikator verwendet vorgegebene Trainingsdaten, um zu lernen, wie neue Datensätze klassifiziert werden. Der Algorithmus lernt unter Einsatz der gegebenen Datensätze und den extrahierten Ergebnissen der einzelnen Prozesse. In diesem Verfahren wertet jeder Klassifikator die Textdaten nacheinander aus. Jeder Klassifikator kann die Stimmung der Datensätze bestimmen. Der ML-Klassifikator ist im letzten Schritt dafür verantwortlich, die Polarität zu bestimmen, wenn die vorherigen Klassifikatoren keine hinzureichende Stimmungsbewertung aufstellen konnten. Das hybride Lernverfahren wurde in dieser Studie dazu eingesetzt um Twitter-Daten auszuwerten.27

3 Anwendung einer Stimmungsanalyse in R

3.1 Vorbereitung

Im Rahmen dieser Arbeit wurde eine Stimmungsanalyse zur Bewertung vom Online-Händler Amazon, mit der Statistik-Software R aufgestellt. Der gesamte Quellcode der in R geschrieben wurde ist aus dem Anhang 1 dieser Arbeit zu entnehmen. Zur Umsetzung dieser Analyse wurde dabei der lexikonbasierte Ansatz gewählt. Die einzelnen Schritte haben sich an der Methodik von Nigam und Yadav orientiert, die eine

[...]


1 Vgl. Schallmo et al. (2017), S. 60.

2 Vgl. Weinreich (2016), S. 3ff.

3 Vgl. Große Holtforth (2017), S. 3-6.

4 Vgl. Saunders (2001), S. 5.

5 Vgl. Lammenett (2019), S.295f.

6 Vgl. Große Holtforth (2017), S. 41f. 7 Vgl. Pfeifle (2018), S. 421ff.

7 Vgl. Kemper et al. (2010), S. 1.

8 Scott-Morton (1983), S. 5.

9 Vgl. Kemper et al. (2010), S. 2f.

10 Vgl. Chamoni, Gluchowski (2006), S. 72.

11 Vgl. Fasel, Meier (2016), S. 140.

12 Vgl. Gao et al. (2007), S. 2667. 14 Vgl. Bastita, Rattè (2012), S. 1.

13 Vgl. Rahmath P, Ahmad (2014), S. 25.

14 Vgl. Dalisay et al. (2017), S. 2f.

15 Vgl. Devika et al. (2016), S. 45.

16 Vgl. Berhane (2018).

17 Vgl. Annie R et al. (2016), S. 51ff.

18 Vgl. Dalisay et al. (2017), S. 3.

19 Vgl. Medhat et al. (2014), S. 1098.

20 Vgl. Dalisay et al. (2017), S. 2.

21 Vgl. Zhang, Liu (2016), S. 7. 24 Vgl. Petz (2019), S. 39.

22 Vgl. Medhat et al. (2014), S. 1102ff.

23 Vgl. Hurwitz, Kirsch (2018), S. 4.

24 Vgl. Medhat et al. (2014), S. 1098. 28 Vgl. Hurwitz, Kirsch (2018), S. 15.

25 Vgl. Gentsch (2018), S. 38.

26 Vgl. Kreutzer, Sirrenberg (2019), S. 7.

27 Vgl. Balage Filho, Pardo (2013), S. 569f.

Ende der Leseprobe aus 31 Seiten

Details

Titel
Sentiment Analysis auf Basis von R und Twitter. Eine Analyse von Tweets zum Hashtag "Amazon"
Hochschule
FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule
Veranstaltung
Business Intelligence
Note
1,7
Autor
Jahr
2019
Seiten
31
Katalognummer
V1006318
ISBN (eBook)
9783346393746
Sprache
Deutsch
Schlagworte
Business Intelligence, hashtag, social media, soziale netzwerke, st, Sentiment Analysis, R, Statistikprogramm, Statistik, analyse
Arbeit zitieren
Onur Güldali (Autor), 2019, Sentiment Analysis auf Basis von R und Twitter. Eine Analyse von Tweets zum Hashtag "Amazon", München, GRIN Verlag, https://www.grin.com/document/1006318

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Sentiment Analysis auf Basis von R und Twitter. Eine Analyse von Tweets zum Hashtag "Amazon"



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden