Im Rahmen dieser Bachelorthesis soll die Frage beantwortet werden, welche Themen besonders häufig von Gästen bei der Bewertung von touristischen Unterkünften, wie Hotels oder Ferienwohnungen, in der Bodenseeregion diskutiert werden.
Die Daten hierfür sollen von einer Webseite extrahiert werden. Dabei liegen sowohl positive als auch negative Bewertungen vor. Die Hauptaufgabenstellung liegt darin, die Daten durch unterschiedliche Verfahren der Unsupervised Topic Detection zu analysieren. Die Ergebnisse der verschiedenen Verfahren sollen anschließend diskutiert und miteinander verglichen werden. Dabei sollen Themen unterschiedlicher Granularität erkannt werden. Dies soll erreicht werden durch die Definition von Wertebereichen für die Anzahl an Themen, welche dann verschieden granulare Ebenen darstellen.
Die Ergebnisse über die Ebenen hinweg sollen zunächst pro Verfahren evaluiert und miteinander verglichen werden. Abschließend sollen die Verfahren auf Basis der erkannten Themen methodisch und semantisch miteinander verglichen werden, um für jede Ebene das am besten geeignete Verfahren zu identifizieren.
Inhaltsverzeichnis
1. Einleitung
1.1. Motivation und Problemstellung
1.2. Zielsetzung und Abgrenzung
1.3. Aufbau der Arbeit
2. Grundlagen
2.1. Tourismus in der Bodenseeregion
2.2. Data Mining
2.3. Text Mining
2.4. Unsupervised Topic Detection
3. Methodik
3.1. Datenextraktion – Web Crawling
3.1.1. Datenquelle
3.1.2. Datenextraktion
3.2. Datenanalyse – Unsupervised Topic Detection
3.2.1. Vorbereitung der Daten – Preprocessing
3.2.2. Latent Dirichlet Allocation (LDA)
3.2.3. Keyword Clustering
3.2.4. Hierarchical Clustering
4. Ergebnisse
4.1. Datenextraktion – Web Crawling
4.1.1. Erklärung des Datensatzes
4.1.2. Tabellarische Beschreibung der Attribute
4.2. Datenanalyse – Unsupervised Topic Detection
4.2.1. LDA
4.2.2. Keyword Clustering
4.2.3. Hierarchical Clustering
4.3. Vergleich der Ergebnisse
5. Schluss
5.1. Zusammenfassung
5.2. Ausblick
Zielsetzung & Themen
Diese Bachelorthesis untersucht mittels verschiedener Verfahren der Unsupervised Topic Detection, welche Themen häufig in Kundenbewertungen touristischer Unterkünfte in der Bodenseeregion diskutiert werden, um Unternehmen bei der Optimierung ihrer Angebote zu unterstützen.
- Vergleich unüberwachter Verfahren zur Themenerkennung (LDA, Keyword Clustering, Hierarchical Clustering).
- Datenextraktion mittels Web Crawling aus Reiseportalen für die Bodenseeregion.
- Optimierung der Analyseprozesse auf verschiedenen Granularitätsebenen.
- Methodischer und semantischer Vergleich der Verfahren hinsichtlich ihrer Interpretierbarkeit.
Auszug aus dem Buch
Latent Dirichlet Allocation (LDA)
Die Latent Dirichlet Allocation ist ein generatives, probabilistisches Verfahren für diskrete Daten. Sie wird verwendet, um herauszufinden, welche Topics behandelt werden und in welchem Verhältnis sie zueinander stehen innerhalb eines Dokuments. Die LDA wurde von David Blei et al. vorgestellt und hat sich schnell zu einer der populärsten probabilistischen Textmodellierungsverfahren entwickelt. Es hat im Bereich des maschinellen Lernens eine Reihe von Forschungsarbeiten inspiriert, u.a. die Arbeiten von Mark Girolami und Ata Kabán. Zudem wurden zahlreiche Erweiterungen des Standard-LDA-Modells entwickelt, z.B. hierarchische Dirichlet-Prozesse oder dynamische Themenmodelle. Das Verfahren wurde u.a. schon für Quellcodeanalysen, Meinungserkennung, Bildklassifizierung, Empfehlungssysteme und Emotionsklassifikation angewandt. Im Folgenden wird das Verfahren hauptsächlich basierend auf den Originalautoren (Blei et al.) näher erläutert.
Die LDA ist ein dreistufiges Bayesianisches Modell. Dieser Algorithmus wird für einen Textkorpus, d.h. eine Sammlung von verschiedenen Dokumenten, häufig im Bereich des NLP eingesetzt. Um Dokumente mit dem Verfahren untersuchen zu können, muss jedes Dokument in einer Bag of Word Struktur vorliegen, d.h., dass die Reihenfolge der Wörter in einem Dokument vernachlässigt werden kann. Ein Dokument ist dabei eine Sequenz von mehreren Wörtern. Die Grundidee des Modells ist, dass jedes Dokument aus verschiedenen K Topics besteht, welche vorerst latent sind. Jedes Dokument kann dabei durch eine Wahrscheinlichkeitsverteilung (Dirichlet-Verteilung) über Topics beschrieben werden. Dabei entspricht jedes Topic einer Wahrscheinlichkeitsverteilung über mehrere, verschiedene Wörter. Der Inhalt des Topics wird also durch die verschiedenen Wörter dargestellt. Grundsätzlich werden einzelne Wörter eines Textkorpus mit einer Wahrscheinlichkeit zwischen 0 und 1 einem Topic zugeordnet. Die Werte der Wahrscheinlichkeiten beschreiben, wie wahrscheinlich eine Assoziation eines Dokuments zu diesem Topic ist. Das Ergebnis dieses Algorithmus sind mehrere Topics in Form von Wortgruppen. Jede Wortgruppe ist dabei eine Wahrscheinlichkeitsverteilung über Worte in den Dokumenten. Die LDA kann dabei auf zwei verschiedene Weisen betrachtet werden, als generativen Prozess und als Inferenzprozess. Den Inferenzprozess kann man sich dabei als Umkehrung des generativen Prozesses vorstellen.
Zusammenfassung der Kapitel
1. Einleitung: Beschreibt die steigende Bedeutung von User Generated Content im Tourismus und definiert die Motivation sowie Zielsetzung der Arbeit.
2. Grundlagen: Erläutert die theoretischen Konzepte von Tourismus in der Bodenseeregion, Data Mining, Text Mining und Unsupervised Topic Detection.
3. Methodik: Beschreibt detailliert die Prozesse der Datenextraktion via Web Crawling sowie die Vorbereitung und Analyse der Daten durch verschiedene Verfahren.
4. Ergebnisse: Präsentiert die Resultate der Analysen und vergleicht diese methodisch sowie semantisch über verschiedene Granularitätsebenen hinweg.
5. Schluss: Fasst die wichtigsten Erkenntnisse der Thesis zusammen und gibt einen Ausblick auf potenzielle zukünftige Entwicklungen und Analysen.
Schlüsselwörter
Unsupervised Topic Detection, Text Mining, Data Mining, Bodenseeregion, Kundenfeedback, Web Crawling, Latent Dirichlet Allocation, Keyword Clustering, Hierarchical Clustering, Tourismus, Sentimentanalyse, Themenidentifikation, Qualitätsdimensionen, Prozessmodell, RapidMiner.
Häufig gestellte Fragen
Worum geht es in der Arbeit grundlegend?
Die Arbeit befasst sich mit der automatisierten Analyse von Hotel- und Unterkunftsrezensionen in der Bodenseeregion, um versteckte Themen (Topics) zu identifizieren.
Welche zentralen Themenfelder werden bearbeitet?
Im Fokus stehen die Themenbereiche Hotelausstattung, Servicequalität, gastronomische Angebote, Standortfaktoren sowie die Zimmerqualität.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, verschiedene unüberwachte Verfahren zur Themenerkennung zu evaluieren und herauszufinden, welches Verfahren die aussagekräftigsten Ergebnisse für unterschiedliche Detaillierungsgrade der Themen liefert.
Welche wissenschaftliche Methode kommt zum Einsatz?
Es werden drei Verfahren verglichen: die Latent Dirichlet Allocation (LDA), das Keyword Clustering sowie das Hierarchical Clustering, jeweils angewandt auf deutschsprachige Bewertungen.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die methodische Beschreibung der Datenextraktion via Web Crawling, die Datenaufbereitung (Preprocessing) und die anschließende Durchführung und Optimierung der gewählten Clustering-Verfahren.
Welche Schlagworte charakterisieren diese Arbeit?
Zu den prägenden Begriffen zählen Topic Detection, Unsupervised Learning, Tourismus-Feedback, Data-Mining-Prozesse und RapidMiner.
Warum wurde Booking.com als Datenquelle gewählt?
Die Plattform bietet eine große Menge an textuellen Bewertungen für die Bodenseeregion, die im Vergleich zu anderen Portalen eine für unüberwachte Verfahren geeignete Struktur aufweisen.
Warum ist das Hierarchical Clustering im Vergleich zur LDA eingeschränkt?
Das Hierarchical Clustering im untersuchten Software-Tool bietet weniger Flexibilität bei der manuellen Wahl der Clusteranzahl pro Iteration und neigt zu einer unflexiblen symmetrischen Aufteilung.
- Quote paper
- Julia Drabsch (Author), 2021, Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion, Munich, GRIN Verlag, https://www.grin.com/document/1175621