Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion


Bachelorarbeit, 2021

90 Seiten, Note: 1,3


Leseprobe


Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1. Einleitung
1.1. Motivation und Problemstellung
1.2. Zielsetzung und Abgrenzung
1.3. Aufbau der Arbeit

2. Grundlagen
2.1. Tourismus in der Bodenseeregion
2.2. Data Mining
2.3. Text Mining
2.4. Unsupervised Topic Detection

3. Methodik
3.1. Datenextraktion – Web Crawling
3.1.1. Datenquelle
3.1.2. Datenextraktion
3.2. Datenanalyse – Unsupervised Topic Detection
3.2.1. Vorbereitung der Daten – Preprocessing
3.2.2. Latent Dirichlet Allocation (LDA)
3.2.3. Keyword Clustering
3.2.4. Hierarchical Clustering

4. Ergebnisse
4.1. Datenextraktion – Web Crawling
4.1.1. Erklärung des Datensatzes
4.1.2. Tabellarische Beschreibung der Attribute
4.2. Datenanalyse – Unsupervised Topic Detection
4.2.1. LDA
4.2.2. Keyword Clustering
4.2.3. Hierarchical Clustering
4.3. Vergleich der Ergebnisse

5. Schluss
5.1. Zusammenfassung
5.2. Ausblick

6. LiteraturverzeichnisVII

ANHANGXI

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1: Vierländerregion Bodensee

Abbildung 2: Venn Diagramm Text Mining

Abbildung 3: Text Mining Prozess

Abbildung 4: LDA - grafisches Modell

Abbildung 5: Vektorraummodell

Abbildung 6: Bewertung Booking.com

Abbildung 7: LDA_negativ_Kennzahlen

Abbildung 8: LDA_positiv_Kennzahlen

Abbildung 9: Davies-Bouldin-Index_negativ

Abbildung 10: Davies-Bouldin-Index_positiv

Abbildung 11: Hierarchical Clustering

Abbildung 12: Hierarchical Clustering_Teilbaum_Iteration

Tabellenverzeichnis

Tabelle 1: LDA Parameter

Tabelle 2: LDA Parameter

Tabelle 3: LDA POS-Tagging

Tabelle 4: Tabellarische Beschreibung der Attribute

Tabelle 5: LDA Kennzahlen

Tabelle 6: LDA Topics Ebene

Tabelle 7: LDA Topics Ebene

Tabelle 8: LDA Topics Ebene

Tabelle 9: Keyword Clustering Kennzahlen

Tabelle 10: Keyword Clustering Topics Ebene

Tabelle 11: Keyword Clustering Topics Ebene

Tabelle 12: Keyword Clustering Topics Ebene

Tabelle 13: Hierarchical Clustering Topics Ebene

Tabelle 14: Hierarchical Clustering Topics Ebene

Tabelle 15: Hierarchical Clustering Topics Ebene

Tabelle 16: Vergleich mit typischen Topics

Tabelle 17: Topic-Aufteilung Vergleich (negativ)

Tabelle 18: Topic-Aufteilung Vergleich (positiv)

Tabelle 19: Topic-Aufteilung Vergleich gesamt

Tabelle 20: Matrix: Vergleich der Verfahren

Tabelle 21: Matrix: Vergleich der Verfahren

1. Einleitung

1.1. Motivation und Problemstellung

Die Anzahl der Internetnutzer steigt weltweit immer weiter an. Im Jahr 2002 waren 11% der Weltbevölkerung vernetzt, 2018 ist dieser Prozentsatz bereits auf 51% angestiegen.1 Durch die vermehrte Nutzung und Verbreitung hat das Internet sich in vielen verschiedenen Bereichen weiterentwickelt, sowohl in technischer als auch in sozio-technischer Hinsicht. Daraus folgt, dass sich nicht nur die Anbieter, sondern auch die Nutzer an der Verbreitung und Generierung von zusätzlichen Informationen beteiligen, was auch als User Generated Content bezeichnet (kurz: UGC) wird.2 Dieser neue Aspekt ist ein charakterisierendes Merkmal des „Web 2.0“. Die neue Art von Nutzer-Anbieter-Kommunikation im Internet führte unter anderem zu dem Aufbau von Bewertungssystemen. Zunächst wurden Bewertungssysteme vorwiegend für Produktbewertungen in Online-Shops genutzt. Doch auch beispielsweise in der Tourismusbranche wird es Kunden ermöglicht, Hotels zu bewerten, welche sie schon einmal besucht haben.3 Anschließend können diese Bewertungen von zukünftigen potenziellen Kunden als Informationsquelle genutzt werden. Im Jahr 2017 haben bereits 61% aller Reisenden Online-Quellen für die konkrete Reisevorbereitung genutzt. 59% der Reisenden haben Online-Quellen für die erste Ideensammlung vor einer Reise genutzt. Die beiden am häufigsten verwendeten Online-Quellen waren dabei die Webseite der Unterkunft und Bewertungsportale oder Bewertungen in Foren.4

Die Bewertungen der touristischen Unterkunft sind daher ein relevanter Faktor für die Informationssuche und auch die Buchungs- bzw. Kaufentscheidung der Kunden. Für die Generationen, die im digitalen Zeitalter aufgewachsen sind, sind Bewertungen sogar zu einem Hauptentscheidungsfaktor geworden. Dadurch haben Hotelbewertungssysteme schnell eine besondere Bedeutung für den Online-Vertrieb erhalten. Zudem kann das touristische Produkt, das Hotel, vor dem Kauf nicht physisch überprüft werden. Durch Bewertungsportale für touristische Unterkünfte müssen die Nutzer nicht mehr ausschließlich den Angaben der Reisedienstleister vertrauen, sondern können auch von Erfahrungen der anderen Reisenden profitieren. Durch die hohe Bedeutung von Bewertungssystemen für touristische Unternehmen haben diese auch zunehmend mehr Einfluss auf ihren wirtschaftlichen Erfolg. Die Präsentation der Bewertungen auf der Webseite und die Reaktion auf positive und negative Bewertungen sind wichtige Aspekte für touristische Unternehmen, um die Wettbewerbsfähigkeit zu sichern und auszubauen.5

Weiterhin ist es wichtig für Unternehmen, möglichst viele Informationen über ihre Kunden zu sammeln, um ihre Marketingstrategien möglichst effizient zu planen und zu entwickeln. Mittlerweile ist die Datenmenge von Kundeninformationen durch Bewertungen und Erfahrungen jedoch sehr groß und kann kaum noch überblickt werden. Um diese Mengen an Informationen effizient als Entscheidungsgrundlage zu nutzen, müssen die Daten nicht nur in Datenbanken integriert werden, sondern es müssen auch wichtige Einflussfaktoren und Zusammenhänge zwischen den Daten analysiert und erkannt werden. Dazu kann Data Mining eingesetzt werden. Unter Anwendung von Data-Mining-Techniken können Informationen automatisch extrahiert und neue Erkenntnisse aus den Daten gewonnen werden. Data Mining bezeichnet hierbei den Prozess, bei dem mithilfe von statistischen Analysen großer Datenmengen unbekannte Muster oder Trends erkannt werden. Die extrahierten und analysierten Daten können anschließend als Input für verschiedene Entscheidungen im Unternehmen verwendet werden und so einen wertvollen Nutzen in der Tourismus-Branche darstellen.6

Durch Data-Mining-Verfahren können aus Bewertungen verschiedene Erkenntnisse geschöpft werden. Die grundsätzliche Stimmung der Bewertungen kann durch eine Sentimentanalyse erkannt werden. Zudem ist es durch eine Topic Detection auch möglich konkrete Themen, die in den Bewertungen diskutiert werden, aufzudecken und zu identifizieren.7 In dieser Arbeit soll mittels Verfahren der Unsupervised Topic Detection Bewertungen zu touristischen Unterkünften der Bodenseeregion analysiert werden. Dabei sind die zu extrahierenden Themen nicht vordefiniert. Sie sollen vielmehr durch die Analysen aufgedeckt und identifiziert werden. Der unüberwachte Ansatz zur Themenerkennung ist für diese Aufgabenstellung im Tourismus vielversprechend, da diese Branche mit vielen verschiedenen Qualitätsdimensionen gekennzeichnet ist und so neue Erkenntnisse gewonnen werden können.8 In dieser Arbeit werden verschiedene Verfahren zur Umsetzung einer Unsupervised Topic Detection vorgestellt und auf Basis von Performanz-Kennzahlen und einer semantischen Bewertung der Ergebnisse miteinander verglichen. Die Bewertungen werden dabei zunächst von einer Webseite extrahiert und mittels Unsupervised Topic Detection Verfahren analysiert. Die extrahierten Themen können anschließend genutzt werden, um die Angebote und Services von touristischen Angeboten in der Bodenseeregion zu überdenken und zu optimieren.

1.2. Zielsetzung und Abgrenzung

Im Rahmen dieser Bachelorthesis soll die Frage beantwortet werden, welche Themen besonders häufig von Gästen bei der Bewertung von touristischen Unterkünften, wie Hotels oder Ferienwohnungen, in der Bodenseeregion diskutiert werden. Die Daten hierfür sollen von einer Webseite extrahiert werden. Dabei liegen sowohl positive als auch negative Bewertungen vor. Die Hauptaufgabenstellung liegt darin, die Daten durch unterschiedliche Verfahren der Unsupervised Topic Detection zu analysieren. Die Ergebnisse der verschiedenen Verfahren sollen anschließend diskutiert und miteinander verglichen werden. Dabei sollen Themen unterschiedlicher Granularität erkannt werden. Dies soll erreicht werden durch die Definition von Wertebereichen für die Anzahl an Themen, welche dann verschieden granulare Ebenen darstellen. Die Ergebnisse über die Ebenen hinweg sollen zunächst pro Verfahren evaluiert und miteinander verglichen werden. Abschließend sollen die Verfahren auf Basis der erkannten Themen methodisch und semantisch miteinander verglichen werden, um für jede Ebene das am besten geeignete Verfahren zu identifizieren.

In dieser Bachelorthesis sollen Daten ausschließlich einer Webseite extrahiert werden. Zudem beschränken sich die Daten auf die Bodenseeregion, welche in Kapitel2.1„Tourismus in der Bodenseeregion“ näher definiert wird. Zudem soll diese Arbeit keinen vollständigen Überblick über alle vorhandenen Verfahren der Unsupervised Topic Detection geben. Vielmehr soll sie ausgewählte Verfahren miteinander vergleichen und die Ergebnisse diskutieren.

1.3. Aufbau der Arbeit

Zunächst wird in Kapitel 2 „Grundlagen“ ein Überblick über die Begriffe dieser Bachelorthesis gegeben. Weiterhin werden die Grundlagen von Text Mining und Verfahren der Unsupervised Topic Detection beschrieben.

Darauf aufbauend werden in Kapitel 3 „Methodik“ zunächst die Methoden der Datenextraktion erläutert. Anschließend wird die Methodik der Datenanalyse ausführlich beschrieben.

In Kapitel 4 „Ergebnisse“ werden die Ergebnisse der einzelnen Analysen diskutiert. Anschließend werden sie evaluiert und miteinander verglichen.

Eine Zusammenfassung der wichtigsten Ergebnisse und ein Ausblick auf zukünftige Entwicklungen beschließen diese Thesis in Kapitel 5 „Schluss“.

2. Grundlagen

2.1. Tourismus in der Bodenseeregion

Der Begriff „Tourismus“ bezeichnet das Verlassen des üblichen Lebensmittelpunktes und den Aufenthalt in einer anderen Destination. In vielen Regionen und Ländern zählt der Tourismus zu den wichtigsten Wirtschaftszweigen, u.a. durch den positiven Effekt auf das Einkommen und Arbeitsplätze.9

In dieser Arbeit wird der Tourismus in der Bodenseeregion betrachtet. Die Bodenseeregion wird auch „Vierländerregion Bodensee“ genannt, da sich die Region über Teile von Deutschland, Schweiz, Österreich und Liechtenstein erstreckt. Dabei gibt es für die Bodenseeregion keine einheitliche Definition, welche Städte sie umfasst. In dieser Arbeit wird die Bodenseeregion anhand folgender Abbildung definiert:10

Abbildung in dieser Leseprobe nicht enthalten

Abbildung1: Vierländerregion Bodensee11

Die Bodenseeregion ist vor allem für ihre Vielfalt bekannt durch die Lage im Vierländer Eck. Es gibt vielfältige Freizeit-, Kultur- und Sportangebote. Daher werden jährlich circa 21,5 Millionen Übernachtungen in der Bodenseeregion gebucht (Stand: 2019).12 Somit ist der Tourismus in der Bodenseeregion ein bedeutender Wirtschaftszweig.

In dieser Arbeit wird die Bodenseeregion auf Basis der Landkreise bzw. Kantone aus obiger Abbildung definiert. Allein Liechtenstein wird in dieser Arbeit ausgegrenzt. Das Ergebnis ist eine Liste mit 617 Städten der Bodenseeregion.

2.2. Data Mining

Business Intelligence (kurz: BI) beschreibt den Zugriff, die Analyse und die Aufbereitung von Informationen unter Anwendung von Informations- und Kommunikationssystemen. Das Ziel dieser Prozesse ist es, neue Erkenntnisse aus den Informationen zu ziehen.13 Diese Erkenntnisse dienen als Entscheidungsunterstützung, Performanceverbesserung und zur Schaffung von Wettbewerbsvorteilen. Data Mining wird im BI-Umfeld eingesetzt, um die Informationen bzw. Daten zu analysieren und potenziell interessante Muster zu erkennen.14 Data Mining beschreibt einen Prozess zum Finden von interessanten Mustern und Zusammenhängen in Datenbeständen. Diese Datenbestände sind dabei meistens sehr groß und hochdimensional, was zu zusätzlichen Anforderungen an die Laufzeit der Algorithmen führt. Zudem sollen Data Mining-Verfahren semi-automatisch ablaufen, d.h. ohne Fachstatistiker. Um Muster und Zusammenhänge in den Daten zu erkennen, werden verschiedene Methoden aus den Bereichen Statistik, Künstliche Intelligenz und Informatik angewandt.15

In Data Mining kann zudem zwischen verschiedenen Aufgaben differenziert werden. Sie unterscheiden sich je nach Art der zu findenden Muster. Sollen beispielsweise möglichst homogene Gruppen gebildet werden, welche sich deutlich voneinander unterscheiden, ist die Aufgabe Segmentierung. Bei der Abweichungsanalyse sollen untypische Datensätze gefunden werden im Vergleich zu allen vorhandenen Daten. Eine Klassifikation teilt die Daten in Klassen ein basierend auf einem mit Trainingsdaten angelernten Modell. Die Prognose wird angewandt, wenn ein numerischer Wert aufgrund von Vergangenheitsdaten vorhergesagt werden soll. Mit der Assoziationsanalyse sollen Korrelationen zwischen gemeinsam auftretenden Objekten gefunden werden. Die Sequenzanalyse sucht Korrelationen zwischen Sequenzen.16 Verschiedene Aufgaben werden mit verschiedenen Data Mining-Verfahren bewältigt. Die in dieser Bachelorthesis angewandte Verfahren werden in den folgenden Kapiteln ausführlich erläutert.

2.3. Text Mining

Text Mining und auch Web Mining sind spezielle Formen von Data Mining, welche auf die Wissensaufdeckung von bestimmten Inputdaten spezialisiert sind. Die Inputdaten für diese Formen von Data Mining sind häufig semistrukturierter bzw. unstrukturierter Text.17

Im Text Mining werden verschiedene statistische oder maschinelle Lern- und Analyseverfahren angewandt. Durch die Verfahren sollen versteckte Strukturen in den Inputdaten aufgedeckt und visualisiert werden. Das Ziel ist auch hier, neue Informationen und Wissen über unbekannte Zusammenhänge aufzudecken und anschließend in wirtschaftlichen Kontexten zu nutzen. Um das Ziel zu erreichen, müssen die unstrukturierten Informationen aus den Textdokumenten in eine Form gebracht werden, welche für maschinelle Analysen geeignet ist.18 Dafür bedient sich Text Mining verschiedener Methoden und Werkzeuge aus anderen Fachbereichen. Diese Interdisziplinarität wird inAbbildung 2: Venn Diagramm Text Miningersichtlich. Diese zeigt Text Mining, seine verwandten Fachdisziplinen und die Schnittmengen dieser.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung2: Venn Diagramm Text Mining19

Des Weiteren sind auf der Abbildung die Aufgabenfelder von Text Mining dargestellt. Text Mining lässt sich folglich in sieben, miteinander vernetzte Kategorien aufteilen:20

Search and Information Retrieval

Hier werden Textdokumente abgerufen und gespeichert über Suchmaschinen und Stichwortsuche. Bei der Stichwortsuche werden Informationen aus Dokumenten großer Textdatenbanken durch Schlüsselwortabfragen extrahiert.

Document Clustering

Im Document Clustering werden Begriffe, Ausschnitte, Absätze oder Dokumente so gruppiert bzw. kategorisiert, dass sie innerhalb der Cluster möglichst ähnlich zueinander sind. Dies wird mit Hilfe von Clustering-Algorithmen umgesetzt. Die Anzahl der Cluster ist dabei unbekannt und muss daher aus den Daten gelernt oder geschätzt werden.21

Document Classification

Hier werden, wie auch beim Document Clustering, Textausschnitte, Absätze oder Dokumente gruppiert und kategorisiert. Doch werden hier die Daten nicht in Cluster eingeteilt, sondern über Klassifikationsalgorithmen zu bereits definierten Klassen zugeordnet.

Web Mining

Wird beim Data Mining das World Wide Web (WWW) als Datenquelle genutzt, spricht man von Web Mining. Dies bezeichnet die explorative Datenanalyse, welche zum Ziel hat, neues Wissen zu generieren. Dabei haben sich mit der Zeit drei Schwerpunkte herausgebildet, die Nutzungs-, Struktur und Inhaltsanalyse. Bei der Nutzungsanalyse wird das Verhalten der Nutzer auf einer bestimmten Webseite untersucht. Des Weiteren können Nutzer- und Seitenprofile erstellt werden auf Basis von Häufigkeitsanalysen. Diese sollen Erkenntnisse liefern, um die Zugriffspfade oder Inhalte von Webseiten zu verbessern. Das Ziel der Strukturanalyse ist es, Webseitenstrukturen nutzerfreundlich und thematisch zu gestalten. Die letzte Analyse, die Inhaltsanalyse, befasst sich mit den multimedialen Inhalten von Webseiten. Diese werden extrahiert und analysiert.22

Information Extraction

Bei dieser Einsatzmöglichkeit von Text Mining werden relevante Fakten und Beziehungen zunächst identifiziert und anschließend extrahiert. Während des Prozesses werden strukturierte Informationen aus unstrukturiertem oder semistrukturiertem Text gewonnen.

Natural Language Processing (kurz: NLP)

In diesem Aufgabenfeld des Text Mining sind Aufgaben zur Verarbeitung und zum Verstehen von Sprachen auf niedriger Ebene angesiedelt. NLP ist sowohl in der Informatik als auch in Linguistik angesiedelt. Eine typische Vorgehensweise enthält dabei mehrere Schritte, welche variieren können. Folgende Verarbeitungsschritte werden in dieser Arbeit angewandt und im Folgenden näher erklärt:

- Satzaufspaltung: Die Dokumente werden anhand der Satzendzeichen aufgeteilt.
- Tokenisierung: Hier wird jeder Satz in eine Liste von Wörtern zerlegt, beispielsweise anhand der Leerzeichen. Die Reihenfolge der Wörter wird dabei beibehalten.
- Part-of-Speech-Tagging: Anschließend wird das Part-of-Speech-Tagging (kurz: POS-Tagging) durchgeführt. Dabei wird den Wörtern die Wortart (Nomen, Verben, Adjektive, usw.) zugeordnet. Ein Wort kann jedoch je nach Kontext des Satzes verschiedene Wortarten darstellen und verschiedene Bedeutungen haben. Daher werden POS-Tagger trainiert mit verschiedenen Textkörpern, welche syntaktisch kommentiert wurden. Anschließend kann der trainierte POS-Tagger neue Wörter zuordnen.23
- Stemming: Die verschiedenen Formen eines Wortes werden auf den Wortstamm bzw. die Grundform der Wörter vereinheitlicht. Aus „laufen“ und „gelaufen“ wird beispielsweise „lauf“.
- Stop Word Removal: „Stop Words” sind Wörter, welche keine Informationsträger sind. Das sind zum Beispiel Artikel oder Pronomen.24

Concept Extraction

Die Extrahierung von Konzepten beschreibt die Einteilung von Wörtern und Phrasen in semantisch ähnliche Gruppen.25

Für Text Mining existiert ein Prozessmodell, welches sehr dem Cross-Industry Standard Process for Data Mining (kurz: CRISP-DM) ähnelt. Jedoch weisen sie trotzdem Unterschiede auf, vor allem im Hinblick auf die Datenaufbereitung. Der Text Mining Prozess, welcher auch in dieser Arbeit angewandt wird, wird im Folgenden kurz erläutert.26

Abbildung in dieser Leseprobe nicht enthalten

Abbildung3: Text Mining Prozess27

Wie in der Abbildung ersichtlich wird, besteht der Prozess aus sechs Teilschritten:28

1. Aufgabendefinition: Die Problemstellung und Text Mining-Ziele werden definiert.
2. Dokumentselektion: Auf Basis der Ziele werden die potenziell relevanten Dokumente identifiziert.
3. Dokumentaufbereitung: Im Gegensatz zu Data Mining erfordert Text Mining zusätzlich eine Merkmalsextraktion. Diese soll Terme aus Texten extrahieren, wobei ein Term ein Wort, Wortstamm oder mehrere zusammengesetzte Wörter darstellen kann. Für die Term-Extraktion kommen verschiedene NLP-Techniken zum Einsatz, welche bereits beschrieben worden sind.
4. (Text) Mining Methoden: Nachdem die Daten in Textform eine Struktur erhalten haben, können Methoden und Verfahren angewandt werden.
5. Interpretation/Evaluation: Die handlungsrelevanten Ergebnisse werden bewertet bezüglich der definierten Ziele und Problemstellung.
6. Anwendung: Die erstellten Modelle werden für den Produktivbetrieb eingesetzt. Hierbei bieten sich vor allem Bereiche an, in denen viele Dokumente vorliegen und Wissen extrahiert werden soll.

2.4. Unsupervised Topic Detection

In dieser Arbeit werden verschiedene Verfahren einer Unsupervised Topic Detection umgesetzt, bewertet und miteinander verglichen. Der Begriff setzt sich dabei zusammen aus „Unsupervised“ und „Topic Detection“. „Unsupervised“ bedeutet, dass die Lernform der Verfahren unüberwachtes Lernen ist, welches oft auch als „Lernen aus Beobachtungen“ bezeichnet wird. Grundsätzlich sind beim maschinellen Lernen Trainingsdaten vorhanden, mit welchen ein Mining-Modell lernt. Anschließend kann das Modell auf neue Daten angewandt werden. Beim unüberwachten Lernen liegen die Trainingsdaten ungelabelt, d.h. ohne vorgegebene Zielgröße, vor oder die Label der Daten werden nicht verwendet. Die Ausgabewerte sind somit nicht bekannt. Daher kann allerdings nicht überprüft werden, ob eine Lösung „Richtig“ oder „Falsch“ ist. Während des Lernvorgangs erfolgt keine Rückmeldung über die Qualität des Ergebnisses von außen. Generell werden beim unüberwachten Lernen Zielfunktionen optimiert oder es wird nach bestimmten Mustern in den Daten gesucht.29

Eine Topic Detection, auch Topic Modeling genannt, bedeutet übersetzt Themenerkennung. Analysen und Algorithmen haben in diesem Bereich zum Ziel, neue Themen und Subthemen aus einer Menge von Dokumenten zu erkennen. Themen, oder auch Topics, stellen dabei eine Gruppe von Wörtern da, welche in einem Text oft gemeinsam auftreten.30 Dabei können Topics auf verschiedenen Level gesucht werden. Je nach Anwendungsgebiet können Topics für einen kompletten Text, für einen Satz oder einen Satzteil gesucht werden. Um eine Topic Detection praktisch umzusetzen, gibt es verschiedene Verfahren und Algorithmen. Die in dieser Arbeit angewandte Verfahren werden im Folgenden erläutert.

Latent Dirichlet Allocation (LDA)

Die Latent Dirichlet Allocation ist ein generatives, probabilistisches Verfahren für diskrete Daten. Sie wird verwendet, um herauszufinden, welche Topics behandelt werden und in welchem Verhältnis sie zueinander stehen innerhalb eines Dokuments. Die LDA wurde von David Blei et al.31 vorgestellt und hat sich schnell zu einer der populärsten probabilistischen Textmodellierungsverfahren entwickelt. Es hat im Bereich des maschinellen Lernens eine Reihe von Forschungsarbeiten inspiriert, u.a. die Arbeiten von Mark Girolami und Ata Kabán.32 Zudem wurden zahlreiche Erweiterungen des Standard-LDA-Modells entwickelt, z.B. hierarchische Dirichlet-Prozesse oder dynamische Themenmodelle.33 Das Verfahren wurde u.a. schon für Quellcodeanalysen, Meinungserkennung, Bildklassifizierung, Empfehlungssysteme und Emotionsklassifikation angewandt.34 Im Folgenden wird das Verfahren hauptsächlich basierend auf den Originalautoren (Blei et al.) näher erläutert.

Die LDA ist ein dreistufiges Bayesianisches Modell. Dieser Algorithmus wird für einen Textkorpus, d.h. eine Sammlung von verschiedenen Dokumenten, häufig im Bereich des NLP eingesetzt. Um Dokumente mit dem Verfahren untersuchen zu können, muss jedes Dokument in einer Bag of Word Struktur vorliegen, d.h., dass die Reihenfolge der Wörter in einem Dokument vernachlässigt werden kann. Ein Dokument ist dabei eine Sequenz von mehreren Wörtern. Die Grundidee des Modells ist, dass jedes Dokument aus verschiedenen K Topics besteht, welche vorerst latent sind. Jedes Dokument kann dabei durch eine Wahrscheinlichkeitsverteilung (Dirichlet-Verteilung) über Topics beschrieben werden. Dabei entspricht jedes Topic einer Wahrscheinlichkeitsverteilung über mehrere, verschiedene Wörter. Der Inhalt des Topics wird also durch die verschiedenen Wörter dargestellt. Grundsätzlich werden einzelne Wörter eines Textkorpus mit einer Wahrscheinlichkeit zwischen 0 und 1 einem Topic zugeordnet. Die Werte der Wahrscheinlichkeiten beschreiben, wie wahrscheinlich eine Assoziation eines Dokuments zu diesem Topic ist. Das Ergebnis dieses Algorithmus sind mehrere Topics in Form von Wortgruppen. Jede Wortgruppe ist dabei eine Wahrscheinlichkeitsverteilung über Worte in den Dokumenten.35 Die LDA kann dabei auf zwei verschiedene Weisen betrachtet werden, als generativen Prozess und als Inferenzprozess. Den Inferenzprozess kann man sich dabei als Umkehrung des generativen Prozesses vorstellen.

Im generativen Prozess werden Textkorpora als Ergebnis des Prozesses betrachtet, welcher latente Variablen enthält. Der Prozess definiert dabei eine gemeinsame Wahrscheinlichkeitsverteilung über die beobachteten und latenten Zufallsvariablen.36

In der folgenden Abbildung ist das grafische, probabilistische Modell der LDA dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung4: LDA - grafisches Modell37

Jeder Knoten stellt eine Zufallsvariable dar. Die latenten Variablen sind nicht schattiert, die beobachteten Knoten (Wörter der Dokumente) sind grau eingefärbt. Die Parameter haben folgende Bedeutung:38

Tabelle1: LDA Parameter

Abbildung in dieser Leseprobe nicht enthalten

Das LDA-Modell geht davon aus, dass hinter jedem Dokument eines Korpus folgender generativer Prozess steht:39

1. Wähle die Anzahl der Wörter Nd von d (Poisson-Verteilung)
2. Wähle eine Themenverteilung für ein Dokument (Dirichlet-Verteilung)
3. Für jedes Wort Wd,n der Nd Wörter in Dokument d
a. Wähle ein Thema Zd,n (Mulitnomial-Verteilung)
b. Wähle ein Wort Wd,n (Mulitnomial-Verteilung)

Der Inferenzprozess hingegen beantwortet die Frage: „Was ist die versteckte Struktur, die wahrscheinlich die beobachtete Sammlung erzeugt hat?“.40 In dem Inferenzprozess wird zunächst jedem Wort des Korpus ein zufälliges Topic k zugeordnet. Im Laufe des Prozesses werden mit jeder Iteration die Wörter den Topics neu zugewiesen. Dafür wird eine Wort-Topic-Zuweisung zunächst wieder gelöst und es werden für dieses Wort folgende Wahrscheinlichkeiten berechnet:

1. Die bedingte Wahrscheinlichkeit dafür, dass das Topic k in dem Dokument vorkommt. Sie wird berechnet aus der Anzahl der Worte, die dem Thema zugewiesen sind im Verhältnis zur Gesamtanzahl der Wörter in dem Dokument d
2. Die bedingte Wahrscheinlichkeit dafür, dass das Wort im Topic k vorkommt. Sie wird berechnet aus der Anzahl der Zuweisungen für das Wort zum Topic k (im Korpus) im Verhältnis zum gesamten Vorkommen des Wortes im Korpus.

Diese beiden Wahrscheinlichkeiten werden dann miteinander multipliziert. Das Topic k mit dem höchsten Wert wird dem Wort zugewiesen. Diese Berechnung wird für alle Wörter wiederholt.41 Der angewandte Algorithmus für den Inferenzprozess ist Gibbs Sampling, welcher auf dem Bayes-Theorem und auf Monte Carlo Markov Ketten basiert.

Für die LDA gibt es einige Gütemaße bzw. Kennzahlen, um die entstandenen Topics auf Qualität zu prüfen. Diese werden im Kapitel4.2.1LDAnäher erläutert.

Ein Vorteil der LDA ist, dass ein Dokument nicht nur einem Topic zugeordnet wird, sondern einer Wahrscheinlichkeitsverteilung über Topics entspricht. Zudem produziert die LDA gut interpretierbare Topics inklusive Gewichtung als Ergebnis. Dem gegenüber steht der Nachteil, dass die Anzahl der Topics vom Anwender bestimmt werden muss, obwohl diese meistens unbekannt ist.42

Keyword Clustering

Clustering ist ein unüberwachtes Verfahren, welches eine geeignete Aufteilung in einer Menge von Objekten sucht. Dies geschieht durch das Zusammenfassen von ähnlichen Objekten zu einer Gruppe, einem sog. Cluster. Dabei sollen die Datenobjekte innerhalb eines Clusters möglich ähnlich sein, während Datenobjekte verschiedener Cluster möglichst unähnlich sein sollen. Text-Clustering bezieht sich dabei auf die Gruppierung von sehr vielen Dokumenten. In jedem Verfahren im Clustering muss zunächst das Ähnlichkeitsmaß oder Distanzmaß definiert werden, was von dem Datentyp, der Datenskala und dem Einsatzzweck des Clustering abhängt. Wenn Textdokumente analysiert werden sollen, wird ein Dokument durch einen Vektor dargestellt und auf diese Weise die Ähnlichkeit ermittelt.43

Clustering von Dokumenten wurde bereits häufig in verschiedenen Bereichen der Wirtschaft und Wissenschaft angewandt. Dabei wurden Arbeiten verfasst, welche zum Ziel hatten verschiedene Clustering Algorithmen miteinander zu vergleichen, wie z.B. in „Text Clustering for Topic Detection“ von Young-Woo Seo und Katia Sycara.44 In dieser Arbeit sollen jedoch nicht mehrere Clustering Algorithmen miteinander verglichen werden, sondern der Vergleich wird für verschiedene Verfahren der unüberwachten Topic Detection durchgeführt im Hinblick auf eine möglichst optimale semantische und mathematische Auswertung der Ergebnisse. Auch im Tourismus-Bereich wurden relevante Studien durchgeführt. Dabei ist vor allem die Arbeit von Menner et al. (2016) zu nennen, in welcher ein ganzheitlicher Prozess für die Extraktion von Bewertungen aus Bewertungsportalen und der Mining Analysen durchgeführt wurde. Im Rahmen dieser Studie wurden ebenfalls Methoden der unüberwachten Topic Detection angewandt, wie auch das Keyword Clustering.45 In dieser Arbeit werden jedoch ausschließlich Bewertungen der Bodenseeregion verwendet und es werden verschiedene Parameter für das Keyword Clustering angewandt, welche in Kapitel3.2.3Keyword Clusteringnäher erläutert werden.

Das Keyword Clustering wird, wie in der Literatur empfohlen, über das Vektorraummodell abgebildet, um numerische Inputdaten zu erhalten. In diesem Modell repräsentiert ein Vektor ein Wort bzw. einen Term, welcher zu einem Dokument gehört. Zudem wird ein Gewichtungswert einem Term zugeordnet. Dieser repräsentiert die Wichtigkeit des Terms bezüglich der Semantik des Dokuments. Terme und Dokumente werden in dem Modell als Vektoren dargestellt. Mehrere Terme stellen dabei eine Query q dar. Der Query-Vektor und der Dokument-Vektor werden dann gewichtet. Wie stark das Dokument d mit der Query q übereinstimmt, kann dann durch den Abstand im euklidischen Raum berechnet werden. Der Abstand bzw. die Cosinus-Ähnlichkeit wird durch den Winkel der Vektoren ermittelt, welcher durch das Skalarprodukt berechnet wird. Zudem wird die Ähnlichkeit durch die Division durch das Produkt der Vektorlängen normiert. Stimmen die Vektoren vollständig überein, wäre der Winkel 0 Grad und der Cosinus = 1. Bei einem Winkel von 90 Grad ist der Cosinus = 0 und bedeutet, dass es keine Übereinstimmung gibt zwischen Dokument d und Query q.

Mit derselben Vorgehensweise können auch Dokumente untereinander auf Ähnlichkeit geprüft werden, wie in folgender Abbildung dargestellt. Dort sind Vektoren für 3 Dokumente und 2 Terme dargestellt. Je mehr Terme es gibt, desto mehr Dimensionen hat das Modell. Es wird ersichtlich, dass Dokument 1 und 2 sich ähnlicher sind als Dokument 2 und 3, da der Winkel β kleiner als der Winkel α ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung5: Vektorraummodell46

Die Gewichtung in diesem Modell kann über verschiedene Verfahren erfolgen. In dieser Arbeit wird die TF-IDF-Gewichtung verwendet. Die Gewichtung berechnet sich aus dem Produkt von folgenden zwei Faktoren:

1. TF-Faktor (Term Frequency Factor): Der Faktor beschreibt die Häufigkeit eines Terms Tk in einem Dokument Di. Dabei wird angenommen, dass je häufiger ein Term in einem Dokument vorkommt, desto wichtiger ist dieser Term.
2. IDF-Faktor (Inversed Document Frequency): Das Maß beschreibt in wie vielen Dokumenten ein bestimmter Term Tk vertreten ist.

Dadurch ergibt sich diese Gewichtung:. Das Ergebnis der numerischen Transformation wird beschrieben durch eine Matrix. Die Term-Vektoren Tk sind die Spalten und die Dokument-Vektoren Di sind die Zeilen dieser Matrix.47

Clustering-Verfahren werden grundsätzlich in verschiedene Verfahrenstypen unterschieden: hierarchische Verfahren, dichtebasierte Verfahren und partitionierende Verfahren. Hierarchische Verfahren werden im nächsten Abschnitt näher erläutert. Dichtebasierte Verfahren basieren darauf Regionen, in welchen viele Objekte sehr dicht beieinander liegen zu Clustern zusammenzufassen. Bei partitionierenden Verfahren werden die Objekte zunächst zufällig in Cluster aufgeteilt. Anschließend werden die Clusterzentren iterativ verschoben, bis homogene Cluster entstanden sind. Dabei wird eine Fehlerfunktion minimiert und Objekte können Clusterzugehörigkeiten während Iterationen wechseln. Bei diesen Verfahren muss die Anzahl an Clustern vorab festgelegt werden.48

In dieser Bachelorarbeit wird der k-Means-Algorithmus für ein partitionierendes Clustering eingesetzt. Der häufig angewandte Clustering-Algorithmus beinhaltet folgende Schritte:49

1. Die Anzahl der zu bildenden Cluster muss beim k-Means vorab festgelegt werden. Jedes Cluster hat ein Clusterzentrum, auch Centroid genannt. Es werden zu Beginn zufällige Centroiden gewählt.
2. Jedes Objekt wird zunächst dem am nächsten liegenden Centroid zugeordnet. Die Abstandsberechnung erfolgt in diesem Fall über die Cosinus-Ähnlichkeit.
3. Anschließend werden die Centroiden neu berechnet. Dies erfolgt über einen Repräsentanten aller Clusterpunkte, wie z.B. der Mittelwert oder Median.
4. Dann wiederholen sich die Schritte 2-4, so lange, bis sich die Zuordnungen der Datenpunkte zu den Centroiden nicht mehr verändern.

Die Effizienz des k-Means definiert sich über folgende Zeitkomplexität:. Dabei beschreibt n die Anzahl der Datensätze, t die Anzahl der Iterationen und k die Anzahl der Cluster. Um den Erfolg bzw. die Qualität des Datenmodells zu beurteilen, wird beim Clustering oft die Kompaktheit pro Cluster berechnet. Diese wird mit der mittleren Summe der Distanzen aller Datenpunkte zum zugehörigen Centroid gemessen. Die Kompaktheit des gesamten Modells entspricht dann der mittleren Kompaktheit von allen Clustern.50 Die Performanz-Kennzahlen zur Evaluierung des Clustering-Modells werden im Kapitel3.2.3Keyword Clusteringnäher erläutert.

Neben der Zeitkomplexität des k-Means-Algorithmus ist die Einfachheit eine weitere Stärke des Algorithmus. Er ist einfach zu verstehen und einfach zu implementieren. Jedoch hat der k-Means auch Schwächen bzw. Grenzen. Zunächst muss das k immer vorgegeben sein, obwohl dies in den meisten Fällen unbekannt ist. Zudem kann der Algorithmus bei einem lokalen Minimum konvergieren. Auf diese Weise kann kein optimales Clustering der Daten garantiert werden. Dies kann jedoch durch mehrere Iterationen mit verschiedenen Startpunkten verhindert werden. Des Weiteren haben Ausreißer einen großen Einfluss auf das Ergebnis. Zudem sollten die Inputdaten normalisiert vorliegen, um die besten Ergebnisse zu erzielen, was in dieser Arbeit durch die Verwendung von TF-IDF-Werten gegeben ist. Zusätzlich ist der Algorithmus ausschließlich für hyper-ellipsoide Cluster geeignet.51

Hierarchical Clustering

Das Clustering und seine Eigenschaften wurden bereits im vorherigen Abschnitt „Keyword Clustering“ beschrieben. Der Verfahrenstyp hier ist ein hierarchisches Verfahren. Hierarchisches Clustering basiert ebenfalls auf dem Grundgedanken, dass Objekte mit nahegelegenen Objekten stärker verwandt sind als mit weiter entfernten Objekten. Die Verfahren können in zwei verschiedene Vorgehensweisen unterteilt werden:52

1. divisives Verfahren (Top-down): Die Menge der Objekte wird sukzessiv in Teilmengen (Cluster) unterteilt.
2. agglomeratives Verfahren (Bottom-up): Die Objekte werden sukzessiv zu Mengen (Clustern) zusammengefasst.

Hierarchische Clusterverfahren wurden bereits im Text Mining Umfeld angewandt. So wurden beispielsweise in der Arbeit von Ying Zhao und George Karypis partitionierende Clustering Verfahren mit hierarchischen Verfahren verglichen, um geeignete Algorithmen für Text Clustering zu finden. In dieser Arbeit werden auch beide Ansätze miteinander kombiniert. Jedoch werden in den meisten wissenschaftlichen Arbeiten ausschließlich agglomerative Verfahren betrachtet.53 In dieser Arbeit wird ein divisives Verfahren angewandt. Klassischerweise wird bei divisiven Verfahren folgende Vorgehensweise verwendet: Die gesamte Datei ist der Startpunkt (Cluster C0 ) und wird schrittweise in kleinere Cluster unterteilt. Zunächst wählt man den Datenpunkt in C0, das von allen anderen durchschnittlich am weitesten entfernt ist. Dieser Datenpunkt ist das erste Mitglied des neuen Clusters C1. Nun werden für alle restlichen Datenpunkte die Entfernung zu den beiden Clustern bestimmt und voneinander abgezogen. So wird für jeden Datenpunkt ermittelt, zu welchen Punkten in den Clustern die geringste Distanz besteht und wird diesem Cluster dann zugewiesen. Dies wird so lange gemacht, bis die Cluster stabil sind. Anschließend werden die neuen Cluster wieder aufgespalten.54

In dieser Arbeit wird jedoch kein klassisches divisives Clustering durchgeführt, da der RapidMiner dieses nicht unterstützt. Stattdessen wird der Top-down-Operator angewandt. Die Grundidee hierbei ist ebenfalls ein Cluster über alle Datenpunkte als Startpunkt sukzessiv in kleinere Cluster zu unterteilen. Dabei wird jedoch ein flaches Clustering ausgeführt, was in dieser Arbeit, der bereits beschriebene k-Means-Algorithmus ist. Mit jeder Iteration werden dann die entstandenen Cluster erneut aufgeteilt durch die Ausführung des k-Means. Dies geschieht symmetrisch, d.h. jedes Cluster wird immer in k Teile aufgeteilt bei jeder Iteration. Gibt es keine sinnvolle Topic-Aufteilung für eine Ebene, wird das komplette Cluster in die nächst tiefere Ebene geschoben und die restlichen Cluster sind leer.

3. Methodik

3.1. Datenextraktion – Web Crawling

3.1.1. Datenquelle

Bevor die Datenextraktion erfolgen kann, muss zunächst die Datenquelle ausgewählt werden. Es werden mehrere große Buchungs- und Vergleichsportale betrachtet. Dabei werden sowohl die Anzahl der Bewertungen als auch die Bewertungsstruktur berücksichtigt. Die zwei Buchungsportale Booking.com und holidayCheck bieten eine hohe Anzahl an textuellen Bewertungen für touristische Unterkünfte in der Bodenseeregion. Hierbei sind die Bewertungen auf der Plattform holidayCheck jedoch bereits in Kategorien unterteilt. Daher macht eine Unsupervised Topic Detection mit Bewertungen dieser Plattform keinen Sinn, da dadurch keine Informationen gewonnen werden können bzw. kein zusätzlicher Nutzen generiert werden kann. Aufgrund dieser Erkenntnisse erweist sich die Plattform Booking.com als geeignetste Datenquelle.

Booking.com wurde im Jahr 1996 gegründet und ist einer der weltweit größten Online-Reiseunternehmen. Die Plattform bietet über 28 Millionen Unterkunftseinträge.55 Dabei haben Bewertungen auf dieser Plattform eine vorgegebene Struktur. Diese beeinflusst das Vorgehen bei der Datenextraktion maßgeblich. Daher wird im Folgenden kurz auf die Struktur von Bewertungen eingegangen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung6: Bewertung Booking.com56

In derAbbildung 6: Bewertung Booking.comist eine Bewertung des Bodensee-Hotel Sonnenhof dargestellt. Auf der Webseite kann grundsätzlich nur dann eine Bewertung abgegeben werden, wenn dort eine Reise in dem Hotel gebucht und angetreten wurde. So möchte Booking.com sicherstellen, dass nur Bewertungen von echten Gästen vorgenommen werden können. In einer Bewertung sind folgende Informationen enthalten: Der Name des Gastes, der Wohnort des Gastes, der Zimmertyp, die Anzahl der Nächte, der Monat des Aufenthalts, der Gruppentyp, das Datum der Bewertung, eine numerische Bewertung auf einer Skala von 1 – 10, der Titel der Bewertung und die textuelle Bewertung – aufgeteilt in positive und negative Aspekte des Hotels. Diese Felder stellen später auch die Attribute des Datensatzes dar und werden im Kapitel4.1.1Erklärung des Datensatzeserläutert.

[...]


1 Vgl. Streim, A. (2019) [Online]

2 Vgl. Gabler Wirtschaftslexikon (Hrsg.) (2018a) [Online]

3 Vgl. Fuchs, W. (Hrsg.) (2021), S.117

4 Vgl. ADAC (Hrsg.) (2018) [Online]

5 Vgl. zur Oven-Krockhaus, I. et al. (2019) [Online] S.4

6 Vgl. Honeycutt, E. et al. (2003) [e-Book], S. 94 - 95

7 Vgl. MonkeyLearn (Hrsg.) (o.J.) [Online]

8 Vgl. Menner, T. et al. (2016)

9 Vgl. Gabler Wirtschaftslexikon (Hrsg.) (2018b) [Online]

10 Vgl. Landratsamt Konstanz (Hrsg.) (o.J.) [Online]

11 Vgl. Fachstelle für Statistik Kanton St. Gallen Volkswirtschaftsdepartement (Hrsg.) (2021) [Online]

12 Vgl. Fachstelle für Statistik Kanton St. Gallen Volkswirtschaftsdepartement (Hrsg.) (2021) [Online]

13 Vgl. Gabler Wirtschaftslexikon (Hrsg.) (2018c) [Online]

14 Vgl. Gronwald, K.-D. (2020), S.83

15 Vgl. Müller, R./Lenz, H.-J. (2013), S.75

16 Vgl. Müller, R./Lenz, H.-J. (2013), S.80 - 81

17 Vgl. Müller, R./Lenz, H.-J. (2013), S.110

18 Vgl. Müller, R./Lenz, H.-J. (2013), S.110 - 111

19 Vgl. Miner, G. et al. (2012), S.71

20 Vgl. Miner, G. et al. (2012), S.70 - 80

21 Vgl. Müller, R./Lenz, H.-J. (2013), S.112 - 113

22 Vgl. Müller, R./Lenz, H.-J. (2013), S.118

23 Vgl. Müller, R./Lenz, H.-J. (2013), S.111 - 112

24 Vgl. Gronwald, K.-D. (2020), S. 98

25 Vgl. Miner, G. et al. (2012), S.70 - 80

26 Vgl. Hippner, H./Rentzmann, R. (2006) [e-Book], S. 287 - 289

27 in Anlehnung an: Hippner, H./Rentzmann, R. (2006) [e-Book], S. 288

28 Vgl. Hippner, H./Rentzmann, R. (2006) [e-Book], S. 287 - 289

29 Vgl. Schacht, S./Lanquillon, C. (Hrsg.) (2019) [e-Book], S.95 - 97

30 Vgl. Allan, J. (Hrsg.) (2012) [e-Book], S. 3 - 7

31 Vgl. Blei, D. et al. (2003)

32 Vgl. Wei, X./Croft, B.-W. (2006) [e-Book]

33 Vgl. Blei, D./Lafferty, J. (2007)

34 Vgl. Jelodar, H. et al. (2018) [e-Book]

35 Vgl. Blei, D. et al. (2003), S. 993 - 995

36 Vgl. Blei, D. (2012) [e-Book], S. 77 - 79

37 Vgl. Blei, D. (2012) [e-Book], S. 81

38 Vgl. Blei, D. (2012) [e-Book], S. 80

39 Vgl. Blei, D. et al. (2003), S. 996

40 Vgl. Blei, D. (2012) [e-Book], S. 79 - 81

41 Vgl. Zimmer, W. (2019) [e-Book], S. 204

42 Vgl. Koch, K. (2020) [Online]

43 Vgl. Müller, R./Lenz, H.-J. (2013), S. 83 - 85

44 Vgl. Seo, Y./Sycara, K. (2004) [Online]

45 Vgl. Menner, T. et al. (2016) [e-Book]

46 Eigene Darstellung

47 Gronwald, K.-D. (2020), S.99 - 101

48 Vgl. Von der Hude, M. (2020), S. 49

49 Vgl. Von der Hude, M. (2020), S. 58

50 Vgl. Müller, R./Lenz, H.-J. (2013), S. 87

51 Vgl. Kaushik, M./Mathur, B. (2014) [Online]

52 Vgl. Von der Hude, M. (2020), S. 50

53 Vgl. Zhao, Y. (2005) [e-Book]

54 Vgl. Von der Hude, M. (2020), S. 57

55 Vgl. Booking.com (Hrsg.) (o.J.) [Online]

56 Vgl. Booking.com (Hrsg.) (2021) [Online]

Ende der Leseprobe aus 90 Seiten

Details

Titel
Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion
Hochschule
Hochschule Ravensburg-Weingarten
Note
1,3
Autor
Jahr
2021
Seiten
90
Katalognummer
V1175621
ISBN (eBook)
9783346610201
ISBN (eBook)
9783346610201
ISBN (eBook)
9783346610201
ISBN (Buch)
9783346610218
Sprache
Deutsch
Schlagworte
Business Intelligence, Data Mining, Text Mining, Topic Detection, RapidMiner, Tourismus, UGC, Web Mining, Scrapy, Web Crawling
Arbeit zitieren
Julia Drabsch (Autor:in), 2021, Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion, München, GRIN Verlag, https://www.grin.com/document/1175621

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden