Die Motivation, eine Sentiment Analyse auf Basis von Movie Reviews durchzuführen, ist vielfältig und schafft unterschiedliche Möglichkeiten für diverse Zielgruppen. Der globale Datensatz über die Meinungen von Benutzern steigt täglich stetig an. Um diese Meinungen zu klassifizieren und in positive und negative Kommentare einordnen zu können, wird im Rahmen dieser Projektarbeit ein Programm erstellt. Das Programm soll einen Beispieldatensatz mit Movie Reviews automatisch in die Kategorien "positiv (1)" oder "negativ (0)" einordnen. Für diese Aufgabe werden bereits existierende Data-Mining Methoden zur Analyse von Meinungen und Bewertungen verwendet. Des Weiteren werden zur Problemlösung Informationen aus wissenschaftlichen Artikeln, Fachzeitschriften sowie Fachbüchern herangezogen.
Mit kontinuierlichem Fortschritt der Web-Technologie und dem damit verbundenen Wachstum, wurde eine riesige Menge an Daten und Informationen erschaffen, welche von Internetbenutzern generiert werden. Das Internet ist zu einer Plattform geworden, in welcher sich Menschen über Ihre Ideen, Meinungen und Anregungen austauschen können. Diese Meinungen und Ideen beziehen sich beispielsweise auf Produkte, Orte, Bücher, Meinungen von anderen Internetbenutzern und Filme. Dieses Potential weckt mittlerweile auch das Interesse von Unternehmen. Da diese Nutzergenerierten Inhalte im Internet in hohem Maße zugänglich sind und diese Meinungen und Stimmungen unterschiedlich behaftet sein können, eignen diese sich besonders für eine Analyse. Die Stimmungsanalyse befasst sich mit der automatisierten Untersuchung unterschiedlicher Beiträge auf Basis von subjektiven Aspekten. Die Anzahl der aktiven Nutzer und die Größe ihrer Bewertungen steigen von Tag zu Tag. Es gibt etwa 2,4 Milliarden aktive Online Nutzer, welche über die ganze Welt verteilt Kommentare lesen und verbreiten. Durch die Analyse von Filmkritiken, kann ein globales Scoringmodell für Filmdatenbanken erstellt werden, welches über das bekannte Punktesystem, beispielsweise "1" für schlecht und "5" für sehr gut – hinausgeht.
Inhaltsverzeichnis
1. Einleitung
1.1 Problemstellung und Ziel
1.2 Aufbau der Arbeit
2. Grundlagen
2.1 Business Intelligence
2.2 Big Data
2.3 Data Mining
2.4 Sentiment Analysis
2.5 Programmiersprache Python
3. Durchführung der Sentiment Analysis
3.1 Einlesen der Daten
3.2 Vorbereitung der Daten
3.2.1 Tokenization
3.2.2 Vectorization
3.3 Modellierung
3.4 Ergebnis der Analyse
4. Fazit
Zielsetzung & Themen
Das Hauptziel dieser Arbeit ist die Entwicklung eines Programms unter Verwendung der Programmiersprache Python, welches öffentliche Movie Review-Datensätze automatisiert in die Kategorien "positiv" und "negativ" klassifiziert und dabei existierende Data-Mining-Methoden anwendet.
- Grundlagen von Business Intelligence und Big Data
- Methodik des Data Mining und Text Mining
- Praktische Implementierung einer Sentiment Analysis
- Datenvorbereitung mittels Tokenization und Vectorization
- Vergleich von Trainingsmodellen (Logistische Regression vs. Random Forest)
Auszug aus dem Buch
3.2.1 Tokenization
Bei der Tokenization geht es darum, einen Datensatz zunächst in kleine Stücke (Tokens) zu zerlegen und unnötige Satzzeichen oder Wörter zu entfernen.43 Es wird im Rahmen der Projektarbeit eine Funktion definiert, welche für den Schritt der Tokenization verwendet wird. Bei dem hier verwendeten Datensatz wurden die Daten höchstwahrscheinlich automatisiert erhoben. Ein Indikator dafür ist, dass sich in den Datensätzen noch HTML-Code befindet. Der erste Schritt beim Tokenization ist es, diesen Code zu entfernen. Anschließend werden in den Bewertungen verwendete Satzzeichen entfernt. Abschließend werden noch sogenannte stopwords entfernt. Stopwords sind Wörter, in denen sich keine positive oder negative Stimmung befindet. Beispiele hierfür sind beispielsweise Artikel oder Personalpronomen.
Zusammenfassung der Kapitel
1. Einleitung: Die Einleitung erläutert die Relevanz der Sentiment Analysis im Kontext von Web-Technologien und definiert die Problemstellung sowie das Ziel der Arbeit.
2. Grundlagen: Dieses Kapitel vermittelt theoretische Basisinformationen zu Business Intelligence, Big Data, Data Mining, Sentiment Analysis und der Programmiersprache Python.
3. Durchführung der Sentiment Analysis: Hier wird der praktische Prozess von der Datenbeschaffung und -vorbereitung bis zur Modellierung und Ergebnisbewertung der verschiedenen Algorithmen beschrieben.
4. Fazit: Das Fazit fasst die Ergebnisse der Klassifizierung zusammen, bewertet die Genauigkeit der Logistischen Regression und gibt einen Ausblick auf zukünftige Optimierungspotenziale.
Schlüsselwörter
Sentiment Analysis, Data Mining, Python, Business Intelligence, Big Data, Movie Reviews, Machine Learning, Tokenization, Vectorization, Logistische Regression, Random Forest, Text Mining, Klassifizierung, Natural Language Processing, Trainingsdatensatz.
Häufig gestellte Fragen
Worum geht es in der vorliegenden Arbeit grundsätzlich?
Die Arbeit behandelt die automatisierte Durchführung einer Sentiment Analysis auf Basis von Filmkritiken (Movie Reviews), um diese in positive oder negative Kategorien einzuteilen.
Was sind die zentralen Themenfelder der Analyse?
Die Schwerpunkte liegen auf der Theorie von Business Intelligence-Systemen, den Herausforderungen von Big Data sowie den technischen Aspekten der Datenverarbeitung und Klassifizierung mittels Machine Learning.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist die Erstellung eines funktionsfähigen Programms in Python, das in der Lage ist, sentimentale Aussagen in Datensätzen automatisch korrekt zu klassifizieren.
Welche wissenschaftliche Methode wird für die Klassifizierung verwendet?
Es werden zwei spezifische Trainingsmethoden im Vergleich angewandt: die Logistische Regression und das Random Forest-Verfahren.
Was wird primär im Hauptteil behandelt?
Der Hauptteil widmet sich dem konkreten Ablauf der Analyse, beginnend beim Einlesen der Daten über die Vorbereitungsschritte wie Tokenization und Vectorization bis hin zur Modellentwicklung.
Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?
Sentiment Analysis, Machine Learning, Python, Data Mining und Klassifizierung sind die prägenden Begriffe der Untersuchung.
Wie effektiv erwies sich die Logistische Regression in diesem Projekt?
Die Logistische Regression erzielte eine Treffergenauigkeit von 88,75 % und schnitt damit in diesem Testszenario leicht besser ab als der Random Forest-Ansatz.
Warum spielt die Zeitkomponente bei der Wahl des Modells eine Rolle?
Aufgrund der deutlichen Unterschiede in der Rechenzeit – 15 Sekunden bei der Logistischen Regression gegenüber 200 Sekunden bei Random Forest – entschied sich der Autor für das schnellere Modell.
Warum wird im Fazit eine menschliche Nachkontrolle empfohlen?
Da eine Fehlklassifikationsrate von etwa 12,5 % (1/8 aller Bewertungen) besteht, reicht die aktuelle Modellgenauigkeit laut Autor noch nicht für eine vollständig autonome Nutzung aus.
- Arbeit zitieren
- Baris Erdem (Autor:in), 2019, Sentiment Analysis. Am Beispiel von Movie Reviews, München, GRIN Verlag, https://www.grin.com/document/1478305