Aspektbasierte Stimmungsanalyse. Semantische Annotation und Klassifikation von aspektbasierten Stimmungswörtern


Hausarbeit, 2014
19 Seiten, Note: 1,7

Leseprobe

Inhaltsverzeichnis

1 Einleitung
1.1 Ziel der Arbeit
1.2 Stand der Forschung

2 Heranführung an die aspektbasierte Stimmungsanalyse
2.1 Semantische Annotation
2.1.1 Extrahierung von Aspekten mittels part-of relationship
2.1.2 Aspekt Extrahierung mit Hilfe von double propagation
2.1.3 Explizite und Implizite Aspekte
2.2 Klassifikation von aspektbasierten Stimmungswörtern
2.2.1 Markierung der Stimmungswörter und Phrasen
2.2.2 Verwendung von sentiment shifter
2.2.3 Indikatoren von Gegensatzanzeichen
2.2.4 Basic Rules of Opinions
2.2.5 Sentiment Scores

3 Zusammenfassung und Ausblick

4 Literaturverzeichnis

1 Einleitung

„Was andere Menschen denken“ war schon immer ein interessanter Teil des eigenen Meinungsbildungsprozesses. Schon lange bevor das „World Wide Web“ für jedermann verfügbar war, fragte man Freunde, wen sie bei der nächsten Bundestagswahl wählen würden, welche Autowerkstatt wohl die Beste sei oder aber welches Handwaschmittel wohl das mit der höchsten Fettlösekraft sei. Der Otto Normalverbraucher, nicht etwa professionelle Kritiker oder aber Bekanntschaften aus dem persönlichen Umfeld sind Ziel solcher Informationsbeschaffungen (vgl. [PaLe08] S.1). Man erforscht den eigenen Bekanntenkreis nach Erfahrungen mit Produkten und Dienstleistungen jeglicher Art. Genau das machen sich neuerdings auch Unternehmen zu Nutze, welche durch die Ent- stehung des „WWW“ eine Meinungsressource scheinbar unendlichen Ausmaßes zur Verfügung haben.

Mit Entstehung von informationsreichen Ressourcen, wie persönlichen Blogs, Online- Review Seiten, Meinungsforen und Bewertungsportalen sind eine Vielzahl von unter- schiedlichen Möglichkeiten entstanden, sich zu informieren, zu recherchieren und sich somit diese Ressourcen aktiv zu Nutze zu machen. In Blogs wird über politische Ent- scheidungen diskutiert, werden Produkte bewertet und Kritiken zu nahezu allem ver- fasst. Zieht man beispielsweise in eine andere Stadt, so informiert man sich über die umliegende Gegend, den zukünftigen Arbeitgeber und lässt sich die schönsten Wohn- gegenden anzeigen. Es gibt Internetseiten wie kununu.com, auf denen es möglich ist, seinen Arbeitgeber anhand von einer Notenskala von eins bis fünf zu bewerten. Amazon bietet umfassende Bewertungsprofile an, auf denen man anhand einer Punkteskala ein vorher gekauftes Produkt bewerten kann. Zusätzlich kann man eine vollständige Rezen- sion mit positiven und negativen Eigenschaften des Produkts verfassen.

Dieses Potential machen sich mittlerweile auch Unternehmen zu Nutze. Nutzergenerier- te Inhalte sind in hohem Maße im Internet verfügbar und können mit Meinungen und Stimmungen beispielsweise zu Produkten und Dienstleistungen behaftet sein. Die Stimmungsanalyse beschäftigt sich mit der automatisierten Untersuchung verschiedener Beiträge in Bezug auf die subjektiven Aspekte. Es können u.a. Suchanfragen in Such- maschinen als Indikator für kommende Automobilverkäufe genutzt werden [ChVa11]. Es können aber auch wichtige zukünftige Konjunkturdaten aus Stimmungen der Ein- wohner eines Landes gewonnen werden. Steigen die Suchanfragen nach Luxusgütern, so kann man von einer positiven Einstellung der Bürger zu der aktuellen konjunkturel- len Lage ausgehen.

Das Internet bietet nicht mehr nur Raum für Informationsbeschaffung, sondern auch für Informationsverarbeitung. In dieser Masse von Daten, die ein jeder im Internet hinterlässt (bewusst oder unbewusst) ist es für Unternehmen und Privatanwender von Vorteil, die nützlichen/geforderten Informationen möglichst zügig, maschinell ausgewertet und kostengünstig kanalisiert zur Verfügung gestellt zu bekommen.

Zur Sichtung dieser schier unendlich großen Datenmenge ist es unersetzlich Techniken einzusetzen, die die verschiedenen Meinungen möglichst maschinell in Gruppen klassifizieren und die Masse an Bewertungen so sehr viel übersichtlicher darstellt. So kann man einem Algorithmus durch maschinelles Lernen anhand von Beispielsätzen Regeln beibringen, so dass dieser nach dem Training selbstständig Texte und Textpassagen in Klassen einordnen kann. Diese können positiver und negativer Natur sein, aber auch in verschiedenen Fällen neutral/objektiv sein.

1.1 Ziel der Arbeit

Ein Fokus dieser Ausarbeitung liegt auf der schrittweisen Erläuterung, wie auto- matisches Klassifizieren von Sätzen bzw. ganzen Texten bezüglich ihrer Meinungsaus- prägung, funktioniert. Dabei basieren die meisten Arbeiten und wissenschaftlichen Texte auf englischsprachiger Literatur. Die deutsche Sprache ist in Bezug auf Sentiment Analysis (zu dt: „Stimmungsanalyse“) noch größtenteils unerforscht. Es handelt sich bei den zur Verfügung stehenden Daten meist um unstrukturierte Daten. Aus diesem Grund sind die meisten Verfahren und Methoden auf diese Art von Daten ausgelegt.

Dabei ist die Erkennung (Kapitel 2.1) und die damit verbundene Extraktion nach vielen unterschiedlichen Vorgehensweisen möglich und sind in diverse Schritte zerlegbar. In Kapitel 2.2 sollen Verfahren dargestellt werden, welche das Klassifizieren der Aspekte bezüglich ihrer Polarität möglichst automatisch ermöglichen.

1.2 Stand der Forschung

Die Stimmungsanalyse hat ihren Ursprung in zwei nicht ganz voneinander un- abhängigen Strömen. Zum einen hat sich die Sentiment Analysis, die im sogenannten Natural Language Processing wurzelt, entwickelt. Zum anderen entwickelte sich das Opinion Mining. Das Opinion Mining entspringt dabei dem Data Mining. Es gibt bereits viele Versuche, diese beiden Ströme voneinander zu trennen und eine Vereinheitlichung der Begrifflichkeiten zu schaffen, was aber bisher misslang. In vielen Arbeiten wird das Opinion Mining der Sentiment Analysis untergeordnet. In dieser Arbeit wird die Stimmungsanalyse dem Opinion Mining übergeordnet.

Es scheint schon verwunderlich, dass Menschen ihre Meinungen und Gefühle anderen im Internet scheinbar kostenlos zur Verfügung stellen. So haben bei einer in den USA durchgeführten Studie 81% der Internetnutzer angegeben, sich bereits einmal über ein Produkt informiert zu haben, bevor es gekauft wurde. 20% gaben an, es täglich zu tun, um sich über ein Produkt vor dem Kauf zu informieren. Davon gaben zwischen 73% und 87% an, dass die verfassten Produktbewertungen anderer Nutzer einen signifikanten Einfluss auf die Entscheidungsfindung beim Produktkauf haben (vgl. [Pa- Le08] S.2).

Weiter ergab die Studie, dass Konsumenten bereit sind das Doppelte für ein fünf Sterne Produkt zu zahlen (je nach Produktgruppe), als für eines das nur mit vier Sternen versehen ist. 32% (18% der Senioren) der Onlinenutzer gaben zudem an, sich aktiv an dem Bewertungssystem im Internet zu beteiligen und haben bereits eine Rezension zu einem Produkt, einer Dienstleistung oder etwa einer Person verfasst.

[Gruhl et al. 2005] zeigten im Jahr 2005 bereits auf, dass es durchaus möglich ist Bücherverkäufe anhand von Stimmungsanalysen, vorherzusagen. Einen ähnlichen Effekt konnten [AsHu10] nachweisen, als Filmverkäufe anhand von Bewertungen in einem Online Video Broadcast bei Twitter analysiert wurden.

2 Heranführung an die aspektbasierte Stimmungs- analyse

2.1 Semantische Annotation

In dem ersten Teil einer aspektbasierten Stimmungsanalyse werden für die Auswertung spezifische Wörter und Wortgruppen herausgefiltert, die die gewünschte Beziehung zu der Anfrage haben (engl. Entities). Man nennt dieses semantische Annotation (engl. Sentiment Extraction). Soll beispielsweise die Sprachqualität eines Handys aus einem Satz wie „The voice quality of this phone is amazing“ extrahiert werden, so hat man folgendes gewonnen: Zum einen die Entität oder auch Informationsobjekt. In diesem Fall ist es die Sprachqualität und nicht etwa wie man vermuten könnte eine generelle Bewertung des Telefons. Wichtig ist, dass immer wenn die Rede von einem Aspekt ist, es auch eine dazugehörige Entität geben muss. Dies kann man erreichen indem man ein sogenanntes Quintuple verwendet, das aus den Bausteinen ej, ajk, soijkl, hi, ti besteht und folgende Bedeutungen haben:

- ej beschreibt die Entität,
- ajk ist ein Aspekt der Entität ej,
- soijkl beschreibt den Stimmungswert des Meinungshalters (positiv, negative oder neutral),
- hi ist die Person, welche die Meinung äußert,
- ti der Zeitpunkt, zudem die Meinung geäußert wird [Bin12].

Diese Bausteine beschreiben aus einem Dokument d jeden Aspekt, des Textes und ordnen diese einer positiven oder negativen Stimmung zu.

Um diese, für die Auswertung relevante Aspekte herauszufiltern, wurden diverse Verfahren entwickelt. Hu und Liu (2004) haben dabei einen Algorithmus entwickelt um Sätze und Phrasen, welche wichtige Nomen enthalten durch einen sogenannten part-of- speech tagger zu extrahieren. So werden die häufig verwendeten Nomen für die weitere Verwendung behalten und weniger häufig genutzte als unwichtig aussortiert. Es handelt sich um eine sehr simple, aber effektive Methode, die durch viele Unternehmen in leicht abgewandelter Form angewendet wird.

2.1.1 Extrahierung von Aspekten mittels part-of relationship

Popescu und Etzioni (2005) haben diesen Algorithmus nochmals verfeinert, indem dieser nicht-verbundene Nomen herausfiltert. So wird durch ein pointwise mutual information (PMI) Punktesystem die Beziehung zwischen der Entität und dem sogenannten meronymy discrimminator bewertet (vgl. [KaPo07]).

Der PMI sieht wie folgt aus:

Abbildung in dieser Leseprobe nicht enthalten.

Dabei ist a der Kandidat, welcher untersucht werden soll und d der Diskriminator. Nun soll anhand der Treffer (hits) untersucht werden, wie oft das Nomen in Bezug auf die zu untersuchende Entität verwendet wird. Das Vorgehen ist dabei schnell ersichtlich. Ist der PMI Wert des Aspekts in Bezug auf die Entität zu gering, so kann es nicht sein, dass a und d in diesem Zusammenhang in Beziehung stehen. Andererseits kann ein beson- ders hoher PMI- Wert einen besonderen Bezug des Aspekts zu der Entität belegen. Zu- dem fügt diese Methode auch noch eine aus dem WordNet1 bekannte is-a Hierarchie hinzu, welche es ermöglicht Attribute und Teile der Attribute zu trennen.

2.1.2 Aspekt Extrahierung mit Hilfe von double propagation

Ein weiterer Teil der Aspekt Gewinnung ist die Verwendung von Wortgruppen und sogenannten „Samen“ (engl. seed). Man kann sich die herausgefilterten seed words auch als einen Baum vorstellen, aus denen viele kleine Äste hervorgehen, welche verwandte Wörter beschreiben. Neue Stimmungswörter bilden den Stamm für wiederrum neue. Nimmt man beispielsweise folgenden Satz: „Die Canon Eos 1000 macht hervorragende Bilder“, so kann man das Adjektiv hervorragend in Verbindung mit dem Nomen Bilder herausfiltern. Der Vorteil dieser Methode liegt darin, dass man:

1. Aspekte extrahieren kann auf Grundlage von Stimmungswörtern,
2. Aspekte extrahieren kann auf Grundlage extrahierter Aspekte,
3. Stimmungswörter extrahieren kann auf Grundlage extrahierter Aspekte,

[...]


1 WordNet is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. (Quelle: http://wordnet.princeton.edu/)

Ende der Leseprobe aus 19 Seiten

Details

Titel
Aspektbasierte Stimmungsanalyse. Semantische Annotation und Klassifikation von aspektbasierten Stimmungswörtern
Hochschule
Universität Paderborn  (Heinz Nixdorf Institut)
Veranstaltung
Semantische Informationsverarbeitung
Note
1,7
Autor
Jahr
2014
Seiten
19
Katalognummer
V298222
ISBN (eBook)
9783656943181
ISBN (Buch)
9783656943198
Dateigröße
939 KB
Sprache
Deutsch
Schlagworte
aspektbasierte, stimmungsanalyse, semantische, annotation, klassifikation, stimmungswörtern
Arbeit zitieren
Elmar Scholz (Autor), 2014, Aspektbasierte Stimmungsanalyse. Semantische Annotation und Klassifikation von aspektbasierten Stimmungswörtern, München, GRIN Verlag, https://www.grin.com/document/298222

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Aspektbasierte Stimmungsanalyse. Semantische Annotation und Klassifikation von aspektbasierten Stimmungswörtern


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden