Leseprobe
Inhaltsverzeichnis
Abbildungsverzeichnis
Abkürzungsverzeichnis
Symbolverzeichnis
1 Einleitung
1.1 Problemstellung und Zielsetzung
1.2 Aufbau der Arbeit
2 Theoretische Grundlagen der Sentiment Classification
2.1 Einordnung und Begriffserläuterungen
2.2 Methodischer Verarbeitungsprozess
3 Methoden der Sentiment Classification
3.1 Methoden auf Dokumentebene
3.2 Methoden auf Satzebene
3.3 Methoden auf Wortebene
4 Anwendung im Marketingkontext
4.1 Paradigmenwechsel in der Marketingkommunikation
4.2 Anwendungsmöglichkeiten der Sentiment Classification
5 Fazit und Ausblick
Literaturverzeichnis
Abbildungsverzeichnis
Abbildung 1: Veröffentlichungen zum Thema automatisierte Meinungsanalyse
Abbildung 2: Einordnung der Forschungszweige der Meinungsanalyse
Abbildung 3: Schematischer Verarbeitungsprozess
Abbildung 4: Bipolare Struktur von Adjektiven
Abbildung 5: Meinungsdarstellung von Eigenschaften einer Digitalkamera
Abbildung 6: Veränderung der Marketingkommunikation
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Symbolverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
1.1 Problemstellung und Zielsetzung
„ Your customers are talking … Are you listening? ”
(Richard Edelmann-WSI)1
Seit dem Jahr 2000 mit einer weltweiten Internetnutzung von 250 Mio. Menschen ist die Anzahl der Nutzer des World Wide Web (WWW) in 10 Jahren um das 8-fache auf über 2 Mrd. Nutzer gestiegen.2 Durch die Weiterentwicklung des Internets ermöglicht diese Informationsplattform auch Interaktions- und Austauschmöglichkeiten, so dass die Verbraucher ihre positiven und negativen Erfahrungen und Meinungen in Bezug auf Produkte und Dienstleistungen im weltweiten Netz mitteilen können.3 Hierdurch generieren sie selbstständig Inhalte und entwickeln Plattformen, über die sie in eigener Regie in Diskussion untereinander, mit ihrer Umwelt und den Unternehmen treten können. Der Austausch erfolgt beispielsweise über Blogs, Diskussionsforen, Peer-to- Peer-Netzwerken und weiteren verschiedenen Arten von Social Media Webseiten. Diese Art der Möglichkeiten und der Internetnutzung wird mit Web 2.0 bezeichnet, bei dem der bisher passive Informationskonsument zu einem aktiven Produzenten von digitalen Inhalten im Internet wird.4
Diese Verhaltens- und Nutzungsveränderung zieht einen Paradigmenwechsel im Marketing nach sich; zuhören statt fragen!5 Laut einer Studie von der Unternehmensberatung Deloitte wurden 82% der Kaufentscheidungen direkt von Kundenrezensionen beeinflusst.6 Eine Analyse an Produktbewertungen bietet Unternehmen die Möglichkeit, sich durch den von Verbrauchern generierten Inhalt, zusätzliche Marktchancen zu verschaffen.7 Für die Vielzahl an Verbraucherbewertungen ist ein effektiver Ansatz wichtig, der in der Lage ist, Produkt- und Dienstleistungsbewertungen aus Kundenmeinungen zu identifizieren, zu analysieren und auszuwerten. Eine manuelle Meinungsanalyse ist aufwändig und nur in geringem Ausmaß möglich.8 Aus technischen Gründen bezog sich die Informationsgewinnung aus Texten bisher lediglich auf die Erlangung von objektiven Fakten und die Analyse von subjektiven Meinungen wurde nicht berücksichtigt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Veröffentlichungen zum Thema automatisierte Meinungsanalyse (Quelle: Eigene Darstellung in Anlehnung an Esuli (2007))
Für die automatische Identifikation und Auswertung von subjektiven Kundenbewertungen in Beurteilungen, Meinungen oder Wahrnehmungen der Konsumenten besteht derzeit kein allgemeingültiger Ansatz, so dass dieser Zweig der automatisierten Meinungsanalyse ein expandierendes Forschungsthema darstellt. Die Abbildung 1 zeigt die Anzahl der Veröffentlichungen von wissenschaftlichen Arbeiten zu den Themen Opinion Mining und Sentiment Classification.9
Diese Arbeit hat das Ziel eine aktuelle Bestandsaufnahme der theoretischen Forschungsarbeiten über die im Sentiment Classification und im Opinion Mining eingesetzten automatisierten Methoden zur Analyse von subjektiven Kundenbewertungen aus dem Internet vorzunehmen. Weiterhin zielt die Arbeit darauf ab Implikationen im Marketingkontext aufzuzeigen, die sich aus der computergestützten Identifikation und Klassifizierung von Konsumenteninformationen ergeben.
1.2 Aufbau der Arbeit
Nach der Einleitung in Kapitel 1 mit der Definition der Problemstellung sowie der Zielsetzung dieser Arbeit wird in Kapitel 2 eine Einführung in grundlegende theoretische Begriffe des Opinion Mining und der Sentiment Classification vorgenommen. Dieses Kapitel stellt ebenfalls eine abstrakte Erklärung eines technischen Verarbeitungsprozesses vor. Im folgenden Kapitel 3 werden Methoden und Anwendungen mit ihren Verarbeitungsansätzen erläutert um einen Überblick des aktuellen Forschungsstands der Meinungsanalyse zu geben. Nach kurzer Erläuterung der Änderungen in der Marketingkommunikation werden in Kapitel 4 Implikationen für das Marketing beispielhaft aufgezeigt. Das Fazit und der Ausblick auf weiteren Forschungsbedarf der automatisierten Meinungsanalyse bilden den Schluss dieser Arbeit.
2 Theoretische Grundlagen der Sentiment Classification
Dieses Kapitel führt in fachliche und technische Begriffe ein und nimmt eine Einordnung der Thematiken der Meinungsanalyse und ihren zugehörigen Analyseansätzen vor. Es dient im weiteren Verlauf der Arbeit zur Orientierung der technischen Ansätze und Methoden der Sentiment Classification.
2.1 Einordnung und Begriffserläuterungen
Die Sentiment Classification (SC) hilft frei formulierte Bewertungen von Konsumenten in strukturierte Daten zu überführen und diese durch Analyseverfahren auszuwerten. Dabei werden maschinelle Verarbeitungsverfahren genutzt.10 Es wird als ein Spezialgebiet der Forschungszweige des Natural Language Processing (NLP), des Data
Mining (DM) und des Information Retrieval (IR) angesehen und kann dem Opinion Mining (OM) zugeordnet werden. Das OM umfasst dabei das automatische Finden von meinungstragenden Passagen und das Auswerten über die Zuordnung von Tonalitätswerten für diese Meinungen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Einordnung der Forschungszweige der Meinungsanalyse (Quelle: Eigene Darstellung in Anlehnung an Bhuiyan et al. (2009, S. 2 f.))
Die Abbildung 2 zeigt die Einordnung der SC in die angrenzenden Thematiken und ihren zugehörigen Analyseansätze. Das Data Mining bzw. das Text Mining stellt den Ausgangspunkt der Einordnung dar und unterteilt sich in die klassische Textanalyse, die sich auf die Analyse von Fakten und damit auf objektive Äußerungen von Kunden über Produkte und Dienstleistungen sowie deren Eigenschaften konzentriert, sowie dem Opinion Mining. Das OM befasst sich hingegen mit der Analyse subjektiver Äußerungen, welche die Einstellungen, Gefühle und Beurteilungen eines Konsumenten widerspiegeln, bei beispielsweise folgendem Satz: „Mit der Kamera wird eine exzellente und einfach zu installierende Software mitgeliefert.“11 Das OM hat das Ziel aus einer gegebenen Menge von Textdokumenten D, die Meinungen oder Wahrnehmungen über kommentierte Eigenschaften und Komponenten eines Objektes zu extrahieren und für jedes Dokument d D zu bestimmen, ob es positiv, negativ oder neutral gepolt ist. Fakten werden somit in der OM nicht mehr untersucht.12 Das OM ist Gegenstand unterschiedlicher Forschungszweige wie der Informatik und der Linguistik und wird in die satz- und dokumenten-orientierte SC und in das wort- eigenschaftsbasierte OM unterteilt.
Das eigenschaftsbasierte Opinion Mining auf Wortebene hat die Aufgabe sämtliche Eigenschaften und Attribute eines Objektes aus den zu analysierenden Texten eines bestimmten Dokuments zu identifizieren und die Meinungsorientierung anhand von Merkmalen der Objekte zu klassifizieren.13 Das SC befasst sich mit der Extraktion der Kundenmeinungen und der Klassifikation der semantischen Orientierungen der textuellen Inhalte. Die Erkennung von semantischen Orientierungen setzt sich aus zwei Schritten zusammen: dem Extrahieren von Stimmungsmerkmalen und dem Verwenden von Algorithmen zur Bestimmung von positiven, negativen und neutralen Ausrichtungen. Die Algorithmen im Extraktionsschritt basieren auf statistischen und linguistischen Analyseverfahren.14 Hingegen werden für die Klassifikation der Stimmungspolarität Methoden des maschinellen Lernens herangezogen, die Verfahren des überwachten- und nicht-überwachten Lernens verwendet.15 Die Klassifizierung der Polarität kann entweder auf einer binären oder multivariaten Skala basieren.16
Das überwachte Lernen ist eine Mustererkennung und basiert auf Klassifikationsalgorithmen, die durch das Durchlaufen von Beispieldatensätzen, auch als Trainingsdaten bezeichnet, ein Muster erlernen. Anhand dieser erlernten Muster ist es den Algorithmen möglich, die Polarität einer Kundenrezension anhand ihrer Merkmale zu erkennen. Hierbei kennt das Lernverfahren nicht die übliche Semantik eines Wortes, sondern identifiziert anhand von Beispieltexten das Muster im Zusammenhang mit dem Themengebiet (Domäne). Damit Algorithmen im überwachten Lernen eine Klassifikation anhand eines Musters vornehmen können, ist es notwendig, vor der Verarbeitung der zu bewertenden Dokumente eine Klassifikation der Terme in dem Muster manuell vorzunehmen. Beispielsweise werden die Trainingsterme in den Trainingsdaten danach klassifiziert, ob sie eine positive oder negative Polarität ausdrücken. Da jedoch nicht alle in der Analyseverarbeitung untersuchten Diskussionsbeiträge wertend sein müssen, kann zusätzlich die Klasse „neutral“ eingeführt werden, die alle Äußerungen mit einem neutralen Wert aufnimmt.17 Im Gegensatz dazu basiert das nicht-überwachte Lernen nicht auf vordefinierten erlernten Mustern, sondern auf Sprachbeziehungen oder Sprachzusammenhängen, wie beispielsweise Assoziationen, die direkt in den zu analysierenden Texten erkannt werden. Den Klassifikationsalgorithmen werden hierbei keine Trainingsdaten zum Erlernen eines anwendbaren Musters vorgegeben, sondern das Muster ergibt sich aus der jeweiligen Sprache. Die Analyse erfolgt in zwei Schritten. Ein angewendetes Verfahren im ersten Schritt der Identifikation ist beispielsweise die Clusteranalyse. Hierbei sucht der Algorithmus in Abhängigkeit der auftretenden Assoziationen in den untersuchten Texten nach ähnlichen Termen und ordnet diese zur Klassifikation einem Cluster zu. Im zweiten Schritt werden diese Cluster auf ihre Polarität in Bezug auf positiv, negativ oder neutral bewertet.18
Die Methoden der SC lassen sich wiederum in Abhängigkeit ihrer Verarbeitungs- und Klassifizierungsebenen in Dokumenten- und Satzebene unterscheiden. Das SC auf der Satzebene sieht eine Analyse von einzelnen Sätzen zu einem beurteilten Objekt vor. Hierbei wird jeder Satz in Bezug auf Objektivität oder Subjektivität analysiert und die subjektiven Sätze in ihre Meinungsorientierung klassifiziert. Die Analyse auf Satzebene kann weiter anhand der Verwendung von zwei konkreten Ausprägungen des überwachten und nicht-überwachten Lernens untergliedert werden, dem Wörterbuch- basierten Ansatz und dem Corpus-basierten Ansatz.19 Beim Wörterbuch-basierten
Ansatz werden vor der Textanalyse potenziell relevante Wörter, Begriffe und Phrasen auf Grundlage von Beispieltexten sowie Hypothesen und Erwartungen an einen Text von einem Autor in einem Diktionär, dem Musterwörterbuch, formuliert und in Kategorien eingeordnet. Zudem kann der Wörterbuch-basierte Ansatz Synonyme und Antonyme aus einem vorgegebenen Wörterbuch wie beispielsweise dem WordNet oder GermaNet aufnehmen, um Meinungsworte eines Wortschatzes zu bestimmen.20 Durch das Verbinden mit Kategorien werden zum Einen die fachspezifischen Konzepte der Autoren, d.h. ihre konkreten Aussagen in Abhängigkeit der Domänen, in generelle Kategorien überführt und zum Anderen auch die Dimensionalität der Klassifizierung des zu analysierenden Textes reduziert.
Das nicht-überwachte Lernen wird bei Analyse auf Satzebene durch Methoden mit Corpus-basierten Ansätzen umgesetzt. Bei diesem Ansatz wird kein erlerntes Wörterbuch bzw. Muster verwendet. Er beruht auf der Syntaktik oder dem Kookkurrenz-Muster, d.h. der Assoziation von Wörtern, die Gefühle oder Meinungen ausdrücken, um andere Meinungen aus einem großen Corpus zu finden. Ein Textcorpus ist eine Sammlung von Sprachmaterialien in digitaler Textform und beinhaltet die zu analysierenden Äußerungen in Textpassagen.21 Die Kategorien werden dabei aus dem jeweiligen Textkorpus via Klassifikationsalgorithmus abgeleitet und im nächsten Schritt mit Polaritäten versehen.
Auf der Dokumentebene geht es um die Klassifikation einer generellen Orientierung der Meinung eines Kunden in einem gesamten Dokument. Die Aufgabe besteht darin festzustellen, ob das gesamte Dokument über ein bestimmtes Objekt positiv, negativ oder neutral ist. Dabei wird das Dokument als eine Informationseinheit für das zu bewertende Objekt betrachtet.22
2.2 Methodischer Verarbeitungsprozess
Wie in Abbildung 3 dargestellt, besteht ein automatischer Verarbeitungsprozess im OM, unabhängig von der Verarbeitungsebene, aus den folgenden Schritten.
[...]
1 Zitat entnommen aus Patrick Brauckmann (2010) S. 138.
2 Vgl. TSN Infratest (2011) S. 66.
3 Vgl. Pang und Lee (2008) S. 2 f.
4 Vgl. Decker und Gnibba-Yukawa (2009) S. 117.
5 Vgl. TSN Infratest (2011) https://www.tns-infratest.com/Digital-Centre/Incubator_Communities.asp, 26.10.2011.
6 Vgl. Wilker und Rieck (2007).
7 Vgl. Ding et al. (2008) S. 1.
8 Vgl. Wei et al. (2010) S. 151.
9 Vgl. Esuli (2007) http://patty.isti.cnr.it/~esuli/research/sentiment/Sentiment.html, 26.10.2011.
10 Vgl. Decker und Gnibba-Yukawa (2009) S. 117.
11 Vgl. Hu und Liu (2004) S. 759.
12 Vgl. Liu (2010) S. 10.
13 Vgl. Liu (2010) S. 16.
14 Vgl. Pang und Lee (2008) S. 15 ff.
15 Vgl. Miao et al. (2010) S. 2289 f.
16 Vgl. Sarvabhotla et al. (2011) S. 338.
17 Vgl. Pang et al. (2002) S. 78 ff.
18 Vgl. Turney (2002) S. 417 ff.
19 Vgl. Liu (2010) S. 13.
20 Vgl. Fellbaum (1998) S. 4 ff.
21 Vgl. Turney (2002) S. 415 ff.
22 Vgl. Liu (2010) S. 10 ff.