Online-Bewertungen haben sich mit der rasanten Entwicklung der Internettechnologie zu einer wichtigen Informationsquelle entwickelt. Sie beeinflussen die Kaufentscheidungen von Käufern und die Herstellungs-, Vertriebs- und Marketingstrategien von Verkäufern. Da Online-Bewertungen als Haupttreiber für zukünftige Verkäufe angesehen werden, haben Unternehmen eine strategische Verantwortung, die Diskussionen der Verbraucher zu erfassen, zu überwachen und zu analysieren. Das Forschungsgebiet des Text Mining bietet in diesem Zusammenhang eine Reihe von Verfahren, die auf Textdaten angewendet werden können. Diese Arbeit gibt aus einer ganzheitlichen Perspektive einen detaillierten Einblick in die erforderlichen Prozessschritte und deren Herausforderungen, um die „Stimme des Kunden“ (engl. »Voice of the Customer«) in Online-Bewertungen zu erfassen.
Dabei folgt sie folgender Forschungsfrage: Wie können bestehende Verfahren des Text Mining kombiniert eingesetzt werden, sodass ein universelles System geschaffen werden kann, welches eingesetzt im E-Commerce-Markt aus Online-Bewertungen zu einem bestimmten Produkt oder einer bestimmten Dienstleistung eine Übersicht zu den wichtigsten Aspekten liefert, wobei überprüft werden kann, welche Aspekte in einem positiven und welche Aspekte in einem negativen Kontext besprochen wurden?
Der Autor legt den Schwerpunkt auf eine anwendungsorientierte Herangehensweise. Das Ziel besteht nicht darin, ein voll funktionsfähiges System zu entwickeln und zu beschreiben. Diese Vorgehensweise würde nur wenige Erkenntnisse liefern. Der Schwerpunkt liegt auf den praktischen Herausforderungen der relevanten Teilaufgaben, die zur Entwicklung eines solchen Systems notwendig sind. Im Zuge einer ganzheitlichen Betrachtung sollen ansatzweise Lösungsmöglichkeiten aufgezeigt werden, welche im praktischen Teil dieser Arbeit umgesetzt und evaluiert werden. Dieser Ansatz kann Unternehmen helfen, Potenziale und Schwächen einzelner Prozesse zu identifizieren.
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Problemstellung
1.3 Forschungsfrage
1.4 Vorgehensweise
2 Text Mining und Online-Bewertungen
2.1 Text Mining
2.1.1 Definition und Abgrenzung
2.1.2 Der Prozess des Text Mining
2.1.3 Text als Datenbasis
2.2 Online-Bewertungen
2.2.1 Bewertungsplattformen
2.2.2 Formatmerkmale von Online-Bewertungen
3 Forschungsmethodik
4 Sentiment-Analyse und Aspekt-Extraktion
4.1 Datenerfassung
4.1.1 Application Programming Interfaces (APIs)
4.1.2 Web Crawler
4.1.3 Datei-Downloads
4.1.4 Herausforderungen
4.2 Vorverarbeitung der Daten
4.2.1 Tokenisierung
4.2.2 Konvertierung von Buchstaben in Kleinbuchstaben
4.2.3 Korrektur von Rechtschreibfehlern
4.2.4 Stoppwort-Entfernung
4.2.5 Umgang mit Negationen
4.2.6 Part-of-Speech Tagging
4.3 Sentiment-Analyse
4.3.1 Herausforderungen
4.3.2 Granularitätsebenen und Methoden der Sentiment-Analyse
4.3.3 Lexikonbasierter Ansatz
4.3.4 Aspektbasierter Ansatz
4.4 Aspekt-Extraktion
4.4.1 Latent Dirichlet Allocation
4.4.2 Herausforderungen
5 Experimente
5.1 Datensatz
5.2 Phase I: Untersuchung des Korpus
5.3 Phase II: Vorverarbeitung
5.4 Phase III: Sentiment-Analyse - lexikonbasierter Ansatz
5.5 Phase IV: Sentiment-Analyse - aspektbasierter Ansatz
5.6 Phase V: Aspekt-Extraktion - Latent Dirichlet Allocation
5.7 Phase VI: Zusammenführung der Ergebnisse und Bewertung
6 Verwandte Arbeiten
7 Schlussbetrachtung
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, ein universelles System für den E-Commerce-Markt zu entwickeln oder zu konzipieren, das Online-Bewertungen mittels Text Mining analysiert, um eine produktbezogene Übersicht der Aspekte und deren Sentiment zu liefern. Dabei werden insbesondere die praktischen Herausforderungen bei der automatischen Verarbeitung von Kundenrezensionen adressiert.
- Grundlagen des Text Mining und deren Anwendung auf Online-Bewertungen
- Entwicklung und Evaluation einer Methodik zur Sentiment-Analyse und Aspekt-Extraktion
- Demonstration eines Lösungsansatzes zur automatisierten Zusammenfassung von Kundenmeinungen
- Analyse und Klassifizierung von Aspekten in positive und negative Kontexte mittels Latent Dirichlet Allocation
Auszug aus dem Buch
4.2.1 Tokenisierung
Die Tokenisierung bildet den ersten Schritt in der Vorverarbeitung mit dem Prozess der Zerlegung der Texteinheiten in einzelne Wörter, Phrasen, Symbole oder andere sinnvolle Elemente, die als Token bezeichnet werden (vgl. Weiss et al., 2005, S. 20-21). Damit lässt sich der Begriff Token als eine zusammenhängende Sequenz von Zeichen definieren (vgl. Krüger, 2006, S. 413). Das Ziel der Tokenisierung ist die Identifikation von sinnvollen Schlüsselwörtern durch das Erkennen von Begrenzungszeichen in einem Satz. Diese Aufgabe ist für einen mit der Sprachstruktur vertrauten Menschen trivial, da es klare Indikatoren für Wortgrenzen gibt wie zum Beispiel Leerzeichen, Punkte und Kommas.
Im Gegensatz dazu ergeben sich für ein Computerprogramm als technisches Medium bei diesem Aufgabentyp eine Reihe von unterschiedlichen Herausforderungen. Die Ursache liegt darin begründet, dass bestimmte Zeichen je nach Anwendung nicht immer eindeutig als Grenzsignale festzumachen sind. Weiss et al. (2015) verdeutlichen dies am Beispiel von Interpunktionszeichen wie zum Beispiel ein Punkt, Komma oder Doppelpunkt, welche zwischen Zahlen nicht als Begrenzungszeichen, sondern als Teil der Zahl betrachtet werden (z. B. „12,45 €“, „12.45 $“, „12:45 Uhr“). Vergleichbares gilt zudem für Abkürzungen, die durch Punkte getrennt werden können (z. B. „Dr.“). Ein entscheidendes Kriterium für den Erfolg der Tokenisierung stellt die kontextuelle Einbindung der Sprache in den Prozess dar.
Zusammenfassung der Kapitel
1 Einleitung: Diese Kapitel motiviert die Relevanz von Online-Bewertungen im E-Commerce, definiert die Problemstellung der manuellen Analyse und legt die Forschungsfrage sowie die methodische Vorgehensweise fest.
2 Text Mining und Online-Bewertungen: Hier werden theoretische Grundlagen des Text Mining erörtert und die Struktur sowie die verschiedenen Arten von Bewertungsplattformen miteinander verglichen.
3 Forschungsmethodik: Es wird der methodische Ansatz mit seinen Phasen gemäß Schieber und Hilbert (2014) vorgestellt und die Kategorisierung der Daten für die Analyse beschrieben.
4 Sentiment-Analyse und Aspekt-Extraktion: Dieses zentrale Kapitel behandelt die theoretischen Rahmenbedingungen zu Datenerfassung, Vorverarbeitung, Sentiment-Analyse und Aspekt-Extraktion sowie deren Herausforderungen.
5 Experimente: Die Kapitelabschnitte dokumentieren die praktische Umsetzung und Evaluation des hybriden Ansatzes anhand eines Amazon-Datensatzes für ein Apple-Produkt.
6 Verwandte Arbeiten: Es erfolgt eine Einordnung der Arbeit durch eine Diskussion aktueller Publikationen und verwandter Forschungsansätze im Bereich der Themenmodellierung.
7 Schlussbetrachtung: Die Arbeit schließt mit einer Zusammenfassung der Ergebnisse, einer kritischen Würdigung der Einschränkungen und einem Ausblick auf zukünftige Forschungsmöglichkeiten.
Schlüsselwörter
Text Mining, Online-Bewertungen, Sentiment-Analyse, Aspekt-Extraktion, E-Commerce, Latent Dirichlet Allocation, Vorverarbeitung, Datenanalyse, Kundenfeedback, Automatisierung, Klassifikation, Wortartenerkennung, Sprachverarbeitung, Modellierung, Produktentwicklung.
Häufig gestellte Fragen
Worum geht es in der Arbeit grundlegend?
Die Arbeit untersucht, wie Unternehmen die "Stimme des Kunden" aus Online-Bewertungen effizient und automatisiert analysieren können, um wertvolles Wissen über die Kundenmeinungen zu Produkten und Dienstleistungen zu gewinnen.
Welche zentralen Themenfelder werden behandelt?
Die Schwerpunkte liegen auf den Prozessen des Text Mining, der Sentiment-Analyse zur Bestimmung der Stimmung und der Aspekt-Extraktion zur Identifizierung der bewerteten Produkteigenschaften.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist die Erschaffung eines universellen, plattformunabhängigen Systems für den E-Commerce-Markt, das aus Online-Bewertungen automatisch Übersichtsgrafiken zu Aspekten und deren zugehörigem Sentiment erstellt.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit nutzt ein generisches Prozessmodell basierend auf Schieber und Hilbert (2014) und testet einen hybriden methodischen Ansatz, der lexikonbasierte Methoden mit der Latent Dirichlet Allocation (LDA) kombiniert.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in theoretische Grundlagen, eine detaillierte Forschungsmethodik inklusive Vorverarbeitungsschritten wie Tokenisierung und POS-Tagging sowie die praktische Durchführung von Experimenten an einem Amazon-Datensatz.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind unter anderem Text Mining, Sentiment-Analyse, Aspekt-Extraktion und Latent Dirichlet Allocation (LDA).
Warum wird das Produkt "Apple iPod Nano" speziell analysiert?
Das Produkt wurde aufgrund der hohen Anzahl an verfügbaren Bewertungen und der vielfältigen technischen Eigenschaften in der Kategorie "electronics" ausgewählt, um die Effektivität des hybriden Analyseansatzes zu demonstrieren.
Welche Bedeutung haben die "hilfreichsten Bewertungen" für die Arbeit?
Diese Bewertungen dienen als Grundlage für eine manuelle Evaluation, bei der Teilnehmer Stichwörter identifizieren, um die Ergebnisse der automatisierten Algorithmen mit menschlicher Einschätzung zu validieren.
- Arbeit zitieren
- Daniel Alexander Luther (Autor:in), 2021, Wie Unternehmen von Text Mining profitieren können. Verwendung von Verfahren des Text Mining zur Gewinnung relevanter Informationen aus Online-Bewertungen, München, GRIN Verlag, https://www.grin.com/document/1267199