Die Bachelorarbeit dreht sich rund um die Analyse und Erkennung von Fake News. Dabei werden aktuelle Anwendungen und Forschungen aufgezeigt sowie alle Methoden zur Fake News Erkennung strukturiert dargestellt und erläutert. Die Möglichkeiten Texte durch Text Mining zu analysieren, um Fake News zu erkennen, werden dargestellt. Daher steht im Fokus der Bachelorarbeit besonders die Methode der stilbasierten Fake News Erkennung, da durch das Text Mining einige Verfahren dieser Methodik angewendet werden können. Um Ergebnisse bezüglich der Erkennung von Fake News, anhand von stilbasierten Methoden des Text Minings zu erhalten, wird ein ausgewählter und aufbereiteter Datensatz aus politischen wahren und falschen Nachrichten aus dem Jahr 2016 und 2017 separat für Nachrichtentitel und Nachrichtentexte analysiert. Durch die sehr hohen erreichten Genauigkeiten zwischen 92 und 97 Prozent bei den durchgeführten Klassifikationen durch TF-IDF Vektorisierung und Anwendung des Naive Bayes Klassifikators sowie der logistischen Regression, kann bestätigt werden, dass sich das Text Mining zur Erkennung von Fake News eignet und klassische Fake News durch Text Mining erkannt werden. Allerdings beschränkt sich die Erkennung von Fake News anhand von Text Mining auf einen sorgfältig ausgewählten sowie aufbereiten Datensatz mit bereits enthaltenen und gekennzeichneten Fake und True News. Die erkannten Muster und Ergebnisse sind lediglich für vergleichbare Nachrichten bezüglich der Thematik, Sprache und Zeitraum verwendbar und nicht verallgemeinerbar.
Zudem wurde anhand der durchgeführten Text Mining Methoden wie EDA und Clustering eine Sprache der gefälschten Nachrichten identifiziert und dargestellt. Diese Sprache weist auf, dass im Datensatz die Worte hillari und clinton die am meisten vorkommenden und eindeutigsten Fake News Wörter sind. Das Wort hillari stellt bei den Nachrichtentiteln mit 57,46 Prozent und die Wörter video mit 57,86 Prozent und hillari mit 56,32 Prozent die Besten Fake News Erkennungsworte dar. Es wurde analysiert, das Fake News aus doppelt so vielen individuellen Wörtern bestehen wie True News. Durch die Clustering Analyse werden die zugehörigen Fake News Worte mit einem Anteil von 66 Prozent für Fake News Titel und 84 Prozent für Fake News Texte in erstellten Word Clouds dargestellt. [...]
Inhaltsverzeichnis
1. Einleitung
1.1. Aufbau
1.2. Zielsetzung
1.3. Herausforderung
2. Grundlagen Fake News
2.1. Arten und Gründe
2.2. Verbreitung
2.2.1. Soziale Medien
2.2.1.1. Social Bots
2.2.1.2. Influence Bots
2.2.2. Nutzerverhalten
2.3. Gefahren und Auswirkungen
2.4. Schwierigkeit Fake News Erkennung
3. Definition Text Mining
3.1. Data Mining
3.2. Natural Language Processing
3.3. Machine Learning
4. Methoden zur Fake News Erkennung
4.1. Wissensbasierte Fake News Erkennung
4.1.1. Manueller Faktencheck
4.1.2. Automatischer Faktencheck
4.2. Stilbasierte Fake News Erkennung
4.2.1. Stildarstellung
4.2.1.1. Data Representation
4.2.1.2. Deep Syntax Analyse
4.2.1.3. Diskursanalyse
4.2.1.4. Semantische Analyse
4.2.1.5. Lesbarkeitsanalyse
4.2.1.6. Psycholinguistische Analyse
4.2.2. Stilklassifikation
4.2.3. Mustererkennung
4.3. Ausbreitungsbasierte Fake News Erkennung
4.3.1. Nachrichtenkaskaden
4.3.2. Ausbreitungsgraphen
4.3.2.1. Homogenes Netzwerk
4.3.2.2. Heterogenes Netzwerk
4.3.2.3. Hierarchisches Netzwerk
4.4. Quellenbasierte Fake News Erkennung
4.4.1. Autoren und Herausgeber Quellenbewertung
4.4.2. Social Media Nutzer Quellenbewertung
5. Anwendungen und Forschungen zur Fake News Erkennung
5.1. Webseiten zur Fake News Erkennung
5.2. Tools zur Fake News Erkennung
5.3. Forschungsprojekt Pheme
6. Konzeption und Realisierung
6.1. Python und Bibliotheken
6.2. Vorgehen und Prozessablauf
6.3. Datensatz und Data Understanding
6.3.1. Erklärung des Datensatzes
6.3.2. Analyse True Daten
6.3.3. Analyse Fake Daten
6.3.4. Zusammenschluss der Daten
6.4. Data Preparation
6.4.1. Data Cleaning
6.4.1.1. Doppelte Werte
6.4.1.2. Fehlwerte entfernen
6.4.1.3. Semantische und syntaktische Fehler
6.4.2. Stoppwörter entfernen
6.4.3. Tokenisierung
6.4.4. Stemming
6.4.5. Vektorisierung
6.4.5.1. Bag of Words
6.4.5.2. TF-IDF
6.5. Modelling und Evaluation
6.5.1. Exploratory Data Analysis
6.5.1.1. N-Gramme
6.5.1.2. Beste Erkennungswörter
6.5.1.3. Unique Token
6.5.2. Klassifikation
6.5.2.1. Naive Bayes
6.5.2.2. Logistische Regression
6.5.3. Clustering
6.6. Zusammenfassung der Ergebnisse
7. Erkenntnisse
7.1. Beantwortung der Forschungsfragen
7.2. Weitergehender Forschungsbedarf
7.3. Handlungsempfehlung
Zielsetzung & Themen
Die vorliegende Arbeit untersucht die Möglichkeiten des Text Minings zur automatisierten Erkennung von Fake News. Das primäre Ziel besteht darin, durch die Analyse von stilistischen Mustern und Inhalten in einem aufbereiteten Datensatz zu klären, ob sich Fake News mittels maschineller Lernverfahren identifizieren lassen und ob eine spezifische "Sprache der Falschmeldungen" existiert.
- Grundlagen der Fake-News-Phänomene und deren Verbreitungsmechanismen
- Einsatz von Text-Mining-Methoden wie Natural Language Processing und Machine Learning
- Stilbasierte Analyse von Nachrichtentexten und Titeln
- Durchführung von Klassifikationen (Naive Bayes, Logistische Regression) und Clustering-Verfahren
- Beantwortung von Forschungsfragen zur Identifizierbarkeit und sprachlichen Charakteristik von Fake News
Auszug aus dem Buch
4.2. Stilbasierte Fake News Erkennung
Der Schwerpunkt einer stilbasierten Fake News Erkennung liegt, wie bei der wissensbasierten Erkennung, auf der Untersuchung des Nachrichteninhalts. Bei der wissensbasierten Methode steht allerdings die Bewertung der Authentizität der Nachricht im Fokus, während bei der stilbasierten Methode z.B. die Nachrichtenabsicht bewertet, ob beispielsweise die Absicht besteht, die Öffentlichkeit irrezuführen oder nicht. Die Annahme hinter stilbasierten Methoden besteht darin, dass Fake News in einem speziellen Stil geschrieben werden, um zu erreichen, dass die falsche Nachricht gelesen und als wahr aufgenommen wird.
Zusammenfassung der Kapitel
1. Einleitung: Beschreibt die Relevanz der Fake-News-Problematik im 21. Jahrhundert und definiert das Ziel, durch Text Mining methodische Lösungen für deren Erkennung zu erforschen.
2. Grundlagen Fake News: Erläutert die Arten, Verbreitungswege (insbesondere soziale Medien und Bots) sowie die gesellschaftlichen Auswirkungen von Desinformation.
3. Definition Text Mining: Definiert die technologischen Grundlagen und Disziplinen wie Data Mining, Natural Language Processing und Machine Learning, die für die Analyse relevant sind.
4. Methoden zur Fake News Erkennung: Kategorisiert verschiedene Ansätze, darunter wissensbasierte, stilbasierte, ausbreitungsbasierte und quellenbasierte Verfahren zur Identifizierung falscher Nachrichten.
5. Anwendungen und Forschungen zur Fake News Erkennung: Gibt einen Überblick über existierende Webseiten, Tools und Forschungsprojekte wie Pheme, die sich mit der Faktenprüfung befassen.
6. Konzeption und Realisierung: Beschreibt den methodischen Prozess der Datenaufbereitung, Modellbildung (Klassifikation, Clustering) und die praktische Analyse des Datensatzes.
7. Erkenntnisse: Beantwortet die Forschungsfragen, diskutiert den weiteren Forschungsbedarf und gibt konkrete Handlungsempfehlungen für die Praxis.
Schlüsselwörter
Fake News, Text Mining, Machine Learning, Stilklassifikation, Natural Language Processing, Klassifikation, Clustering, TF-IDF, Naive Bayes, Logistische Regression, Desinformation, Social Bots, Datenvorverarbeitung, Sprachanalyse, Erkennungsgenauigkeit
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Bachelorarbeit behandelt die Analyse und automatische Erkennung von Fake News mittels stilbasierter Text-Mining-Methoden, um Falschmeldungen effizient von wahren Nachrichten zu unterscheiden.
Welche zentralen Themenfelder werden bearbeitet?
Die Arbeit umfasst die Identifikation von Mustern in Fake News, die Rolle sozialer Netzwerke, die Anwendung von maschinellem Lernen sowie die semantische und stilistische Untersuchung von Nachrichtentexten.
Was ist die primäre Forschungsfrage?
Zentral sind die Fragen, ob sich Text Mining zur Erkennung von Fake News eignet, ob klassische Fake News so erkannt werden können und ob es eine spezifische Sprache der gefälschten Nachrichten gibt.
Welche wissenschaftlichen Methoden kommen zum Einsatz?
Verwendet werden Methoden des Text Minings wie Preprocessing (Data Cleaning, Tokenisierung, Stemming), die Vektorisierung (TF-IDF), statistische Analysen (EDA, N-Gramme) sowie Klassifikations- und Clustering-Algorithmen (Naive Bayes, Logistische Regression, k-Means).
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretische Fundierung der Methoden, die Vorstellung von Forschungsprojekten und die detaillierte Konzeption sowie Realisierung der Analyse anhand eines politischen Datensatzes.
Durch welche Schlüsselbegriffe ist die Arbeit geprägt?
Wesentliche Begriffe sind Fake News, stilbasierte Erkennung, Machine Learning, Text-Mining, Klassifikation und die Identifikation von sprachlichen Merkmalen wie die Verwendung spezifischer Wörter.
Wie unterscheidet sich die "Sprache" von Fake News in dieser Arbeit?
Die Untersuchung zeigt, dass Fake News oft eine höhere Anzahl individueller Wörter verwenden und bestimmte Begriffe wie "hillari" oder "clinton" in diesem Datensatz als signifikante Indikatoren für Falschmeldungen identifiziert werden konnten.
Warum ist die Unterscheidung von Nachrichtentitel und Text so wichtig?
Die Analyse verdeutlichte, dass sich die stilistischen Merkmale und die Erkennungsgenauigkeit zwischen Titeln und Inhalten unterscheiden, weshalb eine separierte Betrachtung für präzisere Ergebnisse unerlässlich ist.
Welche Rolle spielt das Clustering für die Ergebnisse?
Das Clustering ermöglichte es, ohne vorgegebene Zielvariablen Muster zu finden und Word Clouds zu erstellen, die visuell aufzeigen, welche Themen und Wörter in Clustern mit hohem Fake-News-Anteil dominieren.
- Citation du texte
- Oliver Lorenz (Auteur), 2021, Erkennung von Fake News anhand von stilbasierten Methoden des Text Minings, Munich, GRIN Verlag, https://www.grin.com/document/1031189