Die Bachelorarbeit dreht sich rund um die Analyse und Erkennung von Fake News. Dabei werden aktuelle Anwendungen und Forschungen aufgezeigt sowie alle Methoden zur Fake News Erkennung strukturiert dargestellt und erläutert. Die Möglichkeiten Texte durch Text Mining zu analysieren, um Fake News zu erkennen, werden dargestellt. Daher steht im Fokus der Bachelorarbeit besonders die Methode der stilbasierten Fake News Erkennung, da durch das Text Mining einige Verfahren dieser Methodik angewendet werden können. Um Ergebnisse bezüglich der Erkennung von Fake News, anhand von stilbasierten Methoden des Text Minings zu erhalten, wird ein ausgewählter und aufbereiteter Datensatz aus politischen wahren und falschen Nachrichten aus dem Jahr 2016 und 2017 separat für Nachrichtentitel und Nachrichtentexte analysiert. Durch die sehr hohen erreichten Genauigkeiten zwischen 92 und 97 Prozent bei den durchgeführten Klassifikationen durch TF-IDF Vektorisierung und Anwendung des Naive Bayes Klassifikators sowie der logistischen Regression, kann bestätigt werden, dass sich das Text Mining zur Erkennung von Fake News eignet und klassische Fake News durch Text Mining erkannt werden. Allerdings beschränkt sich die Erkennung von Fake News anhand von Text Mining auf einen sorgfältig ausgewählten sowie aufbereiten Datensatz mit bereits enthaltenen und gekennzeichneten Fake und True News. Die erkannten Muster und Ergebnisse sind lediglich für vergleichbare Nachrichten bezüglich der Thematik, Sprache und Zeitraum verwendbar und nicht verallgemeinerbar.
Zudem wurde anhand der durchgeführten Text Mining Methoden wie EDA und Clustering eine Sprache der gefälschten Nachrichten identifiziert und dargestellt. Diese Sprache weist auf, dass im Datensatz die Worte hillari und clinton die am meisten vorkommenden und eindeutigsten Fake News Wörter sind. Das Wort hillari stellt bei den Nachrichtentiteln mit 57,46 Prozent und die Wörter video mit 57,86 Prozent und hillari mit 56,32 Prozent die Besten Fake News Erkennungsworte dar. Es wurde analysiert, das Fake News aus doppelt so vielen individuellen Wörtern bestehen wie True News. Durch die Clustering Analyse werden die zugehörigen Fake News Worte mit einem Anteil von 66 Prozent für Fake News Titel und 84 Prozent für Fake News Texte in erstellten Word Clouds dargestellt. [...]
Inhaltsverzeichnis
- Abstract
- 1. Einleitung
- 1.1. Aufbau
- 1.2. Zielsetzung
- 1.3. Herausforderung
- 2. Grundlagen Fake News
- 2.1. Arten und Gründe
- 2.2. Verbreitung
- 2.2.1. Soziale Medien
- 2.2.1.1. Social Bots
- 2.2.1.2. Influence Bots
- 2.2.2. Nutzerverhalten
- 2.2.1. Soziale Medien
- 2.3. Gefahren und Auswirkungen
- 2.4. Schwierigkeit Fake News Erkennung
- 3. Definition Text Mining
- 3.1. Data Mining
- 3.2. Natural Language Processing
- 3.3. Machine Learning
- 4. Methoden zur Fake News Erkennung
- 4.1. Wissensbasierte Fake News Erkennung
- 4.1.1. Manueller Faktencheck
- 4.1.2. Automatischer Faktencheck
- 4.2. Stilbasierte Fake News Erkennung
- 4.2.1. Stildarstellung
- 4.2.1.1. Data Representation
- 4.2.1.2. Deep Syntax Analyse
- 4.2.1.3. Diskursanalyse
- 4.2.1.4. Semantische Analyse
- 4.2.1.5. Lesbarkeitsanalyse
- 4.2.1.6. Psycholinguistische Analyse
- 4.2.2. Stilklassifikation
- 4.2.3. Mustererkennung
- 4.2.1. Stildarstellung
- 4.3. Ausbreitungsbasierte Fake News Erkennung
- 4.3.1. Nachrichtenkaskaden
- 4.3.2. Ausbreitungsgraphen
- 4.3.2.1. Homogenes Netzwerk
- 4.3.2.2. Heterogenes Netzwerk
- 4.3.2.3. Hierarchisches Netzwerk
- 4.4. Quellenbasierte Fake News Erkennung
- 4.4.1. Autoren und Herausgeber Quellenbewertung
- 4.4.2. Social Media Nutzer Quellenbewertung
- 4.1. Wissensbasierte Fake News Erkennung
- 5. Anwendungen und Forschungen zur Fake News Erkennung
- 5.1. Webseiten zur Fake News Erkennung
- 5.2. Tools zur Fake News Erkennung
- 5.3. Forschungsprojekt Pheme
- 6. Konzeption und Realisierung
- 6.1. Python und Bibliotheken
- 6.2. Vorgehen und Prozessablauf
- 6.3. Datensatz und Data Understanding
- 6.3.1. Erklärung des Datensatzes
- 6.3.2. Analyse True Daten
- 6.3.3. Analyse Fake Daten
- 6.3.4. Zusammenschluss der Daten
- 6.4. Data Preparation
- 6.4.1. Data Cleaning
- 6.4.1.1. Doppelte Werte
- 6.4.1.2. Fehlwerte entfernen
- 6.4.1.3. Semantische und syntaktische Fehler
- 6.4.2. Stoppwörter entfernen
- 6.4.3. Tokenisierung
- 6.4.4. Stemming
- 6.4.5. Vektorisierung
- 6.4.5.1. Bag of Words
- 6.4.5.2. TF-IDF
- 6.4.1. Data Cleaning
- 6.5. Modelling und Evaluation
- 6.5.1. Exploratory Data Analysis
- 6.5.1.1. N-Gramme
- 6.5.1.2. Beste Erkennungswörter
- 6.5.1.3. Unique Token
- 6.5.2. Klassifikation
- 6.5.2.1. Naive Bayes
- 6.5.2.2. Logistische Regression
- 6.5.3. Clustering
- 6.5.1. Exploratory Data Analysis
- 6.6. Zusammenfassung der Ergebnisse
- 7. Erkenntnisse
- 7.1. Beantwortung der Forschungsfragen
- 7.2. Weitergehender Forschungsbedarf
- 7.3. Handlungsempfehlung
Zielsetzung und Themenschwerpunkte
Die Bachelorarbeit befasst sich mit der Analyse und Erkennung von Fake News. Sie beleuchtet aktuelle Anwendungen und Forschungsarbeiten und bietet eine strukturierte Darstellung und Erläuterung aller relevanten Methoden zur Erkennung von Fake News. Der Schwerpunkt liegt auf der stilbasierten Fake News Erkennung, die mithilfe von Text Mining Verfahren angewendet werden kann.
- Analyse und Erkennung von Fake News
- Darstellung aktueller Anwendungen und Forschungen
- Strukturierte Erläuterung von Methoden zur Fake News Erkennung
- Anwendung von Text Mining Verfahren für die stilbasierte Fake News Erkennung
- Analyse und Darstellung der Sprache von Fake News
Zusammenfassung der Kapitel
- Kapitel 1 bietet eine Einleitung in die Thematik der Fake News und stellt den Aufbau, die Zielsetzung und die Herausforderungen der Bachelorarbeit dar.
- Kapitel 2 beleuchtet die Grundlagen von Fake News, einschließlich ihrer Arten, Verbreitung, Gefahren und Auswirkungen sowie der Schwierigkeiten bei ihrer Erkennung.
- Kapitel 3 definiert das Konzept des Text Minings und erläutert seine Bestandteile, wie Data Mining, Natural Language Processing und Machine Learning.
- Kapitel 4 stellt verschiedene Methoden zur Fake News Erkennung vor, darunter wissensbasierte, stilbasierte, ausbreitungsbasierte und quellenbasierte Ansätze.
- Kapitel 5 beleuchtet aktuelle Anwendungen und Forschungsprojekte zur Fake News Erkennung, einschließlich Webseiten, Tools und Forschungsprojekte wie Pheme.
- Kapitel 6 beschreibt die Konzeption und Realisierung der Bachelorarbeit, einschließlich der verwendeten Programmiersprache, des Vorgehens, des Datensatzes und der Datenaufbereitung.
Schlüsselwörter
Fake News, Text Mining, Stilbasierte Fake News Erkennung, Data Mining, Natural Language Processing, Machine Learning, Klassifikation, Clustering, Datensatz, Datenaufbereitung, Analyse, Erkennung, Methoden, Anwendungen, Forschung.
- Citar trabajo
- Oliver Lorenz (Autor), 2021, Erkennung von Fake News anhand von stilbasierten Methoden des Text Minings, Múnich, GRIN Verlag, https://www.grin.com/document/1031189