Die nachfolgende Arbeit hebt die aktuelle Problematik von Forschenden hervor, dessen Forschung sich auf die algorithmische Analyse von großen Textbeständen stützt. Das einleitende Kapitel der Ausarbeitung beschäftigt sich mit dem Urheberrecht und gibt einen Einblick über die Berührungspunkte zwischen Forschung und Urheberrecht. Es beleuchtet die aktuelle Rechtsgrundlage und die damit einhergehende Problematik für Forschende. Insbesondere wird der rechtskonforme Zugang zu geschützten Werken hervorgehoben. Im Zentrum dessen steht die Thematik der abgeleiteten Textformate.
Daraufhin stellt das dritte Kapitel die methodische Grundlage der Ausarbeitung in den Vordergrund. Es verschafft einen Überblick über den Untersuchungsgegenstand und beleuchtet das Vorgehen sowie die Strategie zur Evaluierung der Forschungsergebnisse. Das darauffolgende Kapitel stellt die algorithmische Umsetzung der Transformation des Originals zu einem abgeleiteten Textformat vor. Die Transformierung unterteilt sich hierbei in zwei Schritte: Im ersten Schritt wird der Text unter der Verwendung der Python-Bibliothek "NLTK" vorverarbeitet. Im zweiten Schritt erfolgt die Umwandlung in ein abgeleitetes Textformat unter der Verwendung der Python-Bibliothek "Spacy".
Das fünfte Kapitel stellt einen Algorithmus aus dem Bereich des maschinellen Lernens vor. Die Ergebnisse des Algorithmus dienen als Indikator, um die Verfälschung von Forschungsergebnissen im Kontext von abgeleiteten Textformaten zu ermitteln. Unter der Verwendung des Algorithmus kann das Sentiment des Originaltextes ermittelt werden, dieses dient als Referenz für das erhobene Sentiment der transformierten Texte. Unter Einbezug des Originals kann somit für jedes abgeleitete Textformat im Anschluss der Grad der Verfälschung anhand der Differenz zum Original ermittelt werden. In den letzten Kapiteln werden die Ergebnisse der Sentimentanalyse zusammengefasst und diskutiert.
Im Anschluss erfolgt das Fazit. Die nachfolgende Arbeit soll die Verfälschung von Forschungsergebnissen im Kontext von abgeleiteten Textformaten im Rahmen einer Sentimentanalyse untersuchen.
Inhaltsverzeichnis
1 Einleitung
2 Überblick UrhG
2.1 UrhG Allgemein
2.2 Relevanz UrhG in der Forschung
2.3 Relevante Schranken
2.4 Nachteile für die Forschung
2.5 Potenzielle Alternativen
2.6 Zusammenfassung
3 Methodik
4 Erstellung abgeleiteter Textformate
4.1 Bereinigung
4.2 Stemming
4.3 Transformation in abgeleitete Textformate
4.4 Vergleich
5 Machine Learning
5.1 Import
5.2 Vorverarbeitung
5.3 Aufbau des Modells
5.4 Eigener Input
6 Zusammenfassung der Ergebnisse
7 Fazit
8 Literaturverzeichnis
9 Skript
Zielsetzung und Themenfelder
Das Hauptziel dieser Arbeit ist es, die Verfälschung von Forschungsergebnissen bei der Analyse von großen Textbeständen zu untersuchen, wenn diese in abgeleitete Textformate transformiert werden, um urheberrechtliche Anforderungen zu erfüllen.
- Urheberrechtliche Grundlagen und deren Herausforderungen für die datenbasierte Forschung
- Methoden zur Transformation von Originaltexten in abgeleitete Textformate durch Informationsreduktion
- Durchführung einer algorithmischen Sentimentanalyse zur Bestimmung von Textähnlichkeiten
- Quantitative Evaluierung der Verfälschung durch den Vergleich verschiedener Textmodifikationen
- Diskussion über das Spannungsfeld zwischen Rechtskonformität und wissenschaftlicher Präzision
Auszug aus dem Buch
4.1 Bereinigung
Im ersten Schritt wird der Text eingelesen und unter der Verwendung von Python-Bibliothek ‘String‘ über die Funktion ‘maketrans’ von sämtlicher Interpunktion bereinigt.
Im Anschluss wird der Text in Kleinbuchstaben umgewandelt:
Unter der Verwendung der Python-Bibliothek ‘NLTK‘ werden Kontraktionen und ‘Stopwords’ entfernt:
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung führt in die Problematik ein, dass urheberrechtliche Schranken die Forschung an großen Textbeständen erschweren.
2 Überblick UrhG: Das Kapitel erläutert die gesetzlichen Rahmenbedingungen des Urheberrechts und die spezifischen Probleme für Forschende sowie potenzielle Lösungsansätze.
3 Methodik: Hier wird der methodische Ansatz beschrieben, der auf der Vorverarbeitung von Kafkas 'Die Verwandlung' und der Entfernung spezifischer Wortarten basiert.
4 Erstellung abgeleiteter Textformate: Dieses Kapitel detailliert die algorithmischen Schritte der Textbereinigung, des Stemmings und der Transformation mittels Python und Spacy.
5 Machine Learning: Die Implementierung und das Training eines Naive-Bayes-Klassifikators mittels NLTK zur Sentimentanalyse werden hier dargelegt.
6 Zusammenfassung der Ergebnisse: Dieses Kapitel präsentiert die quantitativen Auswirkungen der Wortartenentfernung auf das Sentiment der transformierten Texte.
7 Fazit: Das Fazit fasst zusammen, dass die Verwendung abgeleiteter Formate eine rechtskonforme Alternative darstellt, jedoch eine signifikante Verfälschung der Ergebnisse in Kauf genommen werden muss.
8 Literaturverzeichnis: Auflistung der verwendeten Quellen und Fachliteratur.
9 Skript: Dokumentation des verwendeten Programm-Codes für die automatisierten Analyseprozesse.
Schlüsselwörter
Urheberrecht, Text Mining, Data Mining, Informatik, Sentimentanalyse, Naive-Bayes, Python, NLTK, Spacy, Datenverarbeitung, UrhG, Forschung, Informationsreduktion, Texttransformation, Verfälschung
Häufig gestellte Fragen
Worum geht es grundsätzlich in dieser Arbeit?
Die Arbeit untersucht, wie Forschende durch die Nutzung abgeleiteter Textformate urheberrechtliche Anforderungen erfüllen können, ohne ihre Analyseergebnisse massiv zu verfälschen.
Welche zentralen Themenfelder werden bearbeitet?
Zentrale Themen sind das deutsche Urheberrechtsgesetz im Kontext der Forschung, Methoden des Text Minings und die Anwendung von Machine-Learning-Algorithmen.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist es, den Grad der Verfälschung von Forschungsergebnissen zu ermitteln, wenn Texte für eine rechtskonforme Analyse manipuliert werden.
Welche wissenschaftliche Methode kommt zum Einsatz?
Es wird eine algorithmische Vorgehensweise gewählt, bei der mittels PoS-Tagging gezielt Wortarten entfernt und anschließend die Auswirkungen auf eine Sentimentanalyse geprüft werden.
Was wird im Hauptteil detailliert behandelt?
Der Hauptteil umfasst die technische Transformation von Texten, die Implementierung eines Sentimentanalyse-Modells und den Vergleich der Ergebnisse zwischen Originaltext und verschiedenen abgeleiteten Formaten.
Welche Schlüsselwörter charakterisieren die Untersuchung?
Wichtige Begriffe sind Urheberrecht, abgeleitete Textformate, Sentimentanalyse, Naive-Bayes und Forschungstransparenz.
Wie unterscheidet sich das Sentiment bei Wegfall von Adjektiven?
Das abgeleitete Textformat ohne Adjektive wies in der Untersuchung die größte messbare Differenz (17 %) gegenüber dem Original auf.
Warum ist das gewählte Modell spezifisch zu betrachten?
Das Modell basiert auf spezifischen Trainingsdaten der NLTK-Bibliothek, was bedeutet, dass die Ergebnisse stark durch die Gewichtung bestimmter Merkmale, wie etwa Smileys, beeinflusst werden.
Ist die Nutzung abgeleiteter Textformate uneingeschränkt empfehlenswert?
Nein, der Forschende muss abwägen, ob er die durch die Manipulation entstehende Verfälschung der Forschungsergebnisse im Austausch gegen die Rechtskonformität akzeptieren kann.
- Arbeit zitieren
- Aleksej Woratsch (Autor:in), 2021, Abgeleitete Textformate als alternativer, rechtskonformer Zugang. Wie wirkt sich die Manipulation eines Textes auf die Forschungsergebnisse aus?, München, GRIN Verlag, https://www.grin.com/document/1259056