"Authorship Analysis" hat seinen historischen Ursprung in der Untersuchung ungeklärter oder angezweifelter Urheberschaft von literarischen Werken. Prominentestes und frühes Beispiel ist die Frage nach der Autorenschaft der Werke William Shakespeares. So wurde die Urheberschaft William Shakespeares an den ihm zugeschriebenen Werken bereits seit dem 18. Jahrhundert immer wieder angezweifelt. Es wurde vermutet, dass die ihm zugeschriebenen Werke von einem oder mehreren anderen Autoren geschrieben wurden. Bereits Ende des 19. Jahrhunderts wurden zur Klärung dieser Frage statistische Untersuchungen von Texten durchgeführt, unter der Annahme, dass sich gewisse zählbare Merkmale feststellen lassen, welche zuverlässig verschiedene Autoren unterscheiden.
Im 21. Jahrhundert sind die technischen Möglichkeiten zur Untersuchung großer Datenmengen vorhanden und werden immer mehr durch Polizei und Geheimdienste eingesetzt. Gerade im Bereich der Cyberkriminalität, wo sich Täter in einem anonymen Rahmen bewegen können, finden Verfahren der "Authorship Analysis" in verschiedenen Bereichen (Foren, Internetseiten, E-Mails, Programmcodes) Anwendung. Die Anwendung von "Authorship Analysis" birgt aber auch Risiken für Menschen und Institutionen, die Texte veröffentlichen, denn aus diesen Texten lassen sich Rückschlüsse auf den Autoren und auf persönliche Merkmale und Lebensumstände ziehen.
Wie alt ist der Autor ? Welches Geschlecht hat der Autor? Wie hoch ist sein Bildungsniveau? Was sind seine politischen Überzeugungen? Welcher sozialen Schicht entstammt er? Welchen kulturellen Hintergrund hat er? Welche Gefühle transportiert er in dem Text? In welchen 'Communities' ist er aktiv? Mit wem hat er direkten Kontakt?
Dies alles sind Fragen die potenziell automatisiert von Computern aus Texten 'errechnet' werden können. Inwiefern dies aktuell tatsächlich möglich ist, und wenn ja in welchem Ausmaß möchte ich in dieser Arbeit untersuchen.
Inhaltsverzeichnis
1. Einleitung
2. Begriffsdefinition 'Authorship Analysis
2.1 Stilometrische Merkmale
2.2 Auswahl der Merkmale
2.3 Technische Umsetzung
3. Gefahren der 'Authorship Analysis' für Bürger und Institutionen
Zielsetzung & Themen der Arbeit
Die Arbeit untersucht die wissenschaftliche Disziplin der "Authorship Analysis" (Autorenschaftsanalyse) und deren Anwendung im digitalen Zeitalter. Im Fokus steht dabei die Frage, inwieweit computergestützte Verfahren heute in der Lage sind, aus Texten Rückschlüsse auf persönliche Merkmale, Identitäten oder Lebensumstände von Autoren zu ziehen, und welche ethischen sowie gesellschaftlichen Gefahren sich daraus für die Privatsphäre ergeben.
- Historische Entwicklung der Autorenschaftsanalyse von der Literaturwissenschaft hin zur forensischen Linguistik.
- Kategorisierung und technische Methoden der Stilanalyse (Attribution, Profiling, Similarity Detection).
- Stilometrische Merkmale: Lexikalische, syntaktische, strukturelle und idiosynkratische Identifikationsparameter.
- Methoden des maschinellen Lernens und algorithmische Optimierung (z.B. Genetic Algorithms, Support Vector Machines).
- Risiken der Anonymitätsentlarvung und Fallbeispiele für den Missbrauch technischer Analysen.
Auszug aus dem Buch
2. Begriffsdefinition 'Authorship Analysis
Unter 'Authorship Analysis' versteht man die Untersuchung eines Textes in Hinblick auf Merkmale, die Rückschlüsse auf den Autoren zulassen. 'Authorship Analysis' hat seine Ursprünge in der Stilometrie, welche den literarischen Stil eines Textes mithilfe statistischer Methoden hinsichtlich bestimmter stilometrischer Merkmale (siehe 3.1 stilometrische Merkmale) untersucht.
'Authorship Analysis' lässt sich in drei Kategorien unterteilen: 'Authorship Attribution / Identification', 'Authorship Profiling / Characterization' und 'Similarity Detection'.
'Authorship Attribution' ist die historische Kerndisziplin und untersucht die Wahrscheinlichkeit, dass eine bestimmte Person der Autor eines Textes ist (anhand von anderen Texten).
Beim 'Authorship Profiling' werden anhand eines oder mehrerer Texte Rückschlüsse auf persönliche Merkmale des Autors (Alter, Geschlecht, Bildungsniveau, kultureller Hintergrund, sozialer Hintergrund, Sprachkenntnisse/Muttersprache) gezogen.
'Similarity Detection' spielt vor allem im Bereich der Plagiatssuche eine Rolle und vergleicht mehrere Texte hinsichtlich ihrer Gemeinsamkeiten.
Zusammenfassung der Kapitel
1. Einleitung: Das Kapitel führt in die historische Entwicklung der Autorenschaftsanalyse ein und erläutert deren Verschiebung von der literaturwissenschaftlichen Urheberschaftsfrage hin zu einer modernen Technik der forensischen Linguistik.
2. Begriffsdefinition 'Authorship Analysis: Hier werden die methodischen Grundlagen gelegt, indem die zentralen Kategorien der Analyse definiert und die stilometrischen sowie technischen Merkmale der Texterkennung im Detail beleuchtet werden.
3. Gefahren der 'Authorship Analysis' für Bürger und Institutionen: Dieses Kapitel diskutiert die kritischen Auswirkungen der Technologie auf die Privatsphäre und illustriert anhand von Fallbeispielen das Missbrauchspotenzial bei der Entlarvung anonymer Autoren.
Schlüsselwörter
Authorship Analysis, Stilometrie, Autorenidentifikation, Authorship Profiling, Maschinelles Lernen, Support Vector Machines, Sprachanalyse, Anonymität, Forensische Linguistik, Datensicherheit, Cyberkriminalität, Identitätsermittlung, Textanalyse, Stilometrische Merkmale, Privatsphäre.
Häufig gestellte Fragen
Worum geht es in der Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit den Möglichkeiten und Risiken der computergestützten Autorenschaftsanalyse, bei der anhand von sprachlichen Mustern Identitäten und persönliche Profile aus Texten extrahiert werden können.
Was sind die zentralen Themenfelder?
Die Arbeit deckt die theoretische Definition, die technischen Analyseverfahren (Stilometrie, Maschinelles Lernen) und die gesellschaftlichen Konsequenzen für die Anonymität im digitalen Raum ab.
Was ist das primäre Ziel der Untersuchung?
Ziel ist es, den aktuellen Stand der Technik zur Identifizierung von Autoren zu skizzieren und zu bewerten, inwieweit diese Verfahren eine Bedrohung für die Anonymität von Personen darstellen.
Welche wissenschaftliche Methode wird verwendet?
Der Autor nutzt eine literaturbasierte Analyse aktueller wissenschaftlicher Ansätze aus den Bereichen der Korpuslinguistik, Informatik und forensischen Linguistik.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in eine detaillierte Auseinandersetzung mit stilometrischen Merkmalen (lexikalisch, syntaktisch, strukturell) sowie eine Vorstellung moderner Verfahren des maschinellen Lernens zur Automatisierung der Autorenerkennung.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird primär durch Begriffe wie Authorship Analysis, Stilometrie, Anonymität und Maschinelles Lernen geprägt.
Wie sicher ist die maschinelle Autorenidentifikation?
Der Autor betont, dass die maschinelle Identifikation kein objektives Verfahren ist, das Identitäten absolut enthüllt, sondern lediglich statistische Wahrscheinlichkeiten hinsichtlich der Ähnlichkeit von Texten liefert.
Welche Rolle spielt die Verschleierung des Schreibstils?
Die Verschleierung (Obfuscation) ist eine notwendige Gegenstrategie, wobei Programme wie "Anonymouth" helfen sollen, den eigenen Schreibstil zu verändern, um einer automatisierten Identifizierung zu entgehen.
Welche Rolle spielt der Fall Andrej Holm in dieser Untersuchung?
Der Fall dient als prominentes Beispiel für die negativen Konsequenzen falsch-positiver Analyseergebnisse, die dazu führen können, dass unbescholtene Bürger zu Zielpersonen von Ermittlungsbehörden werden.
- Arbeit zitieren
- Raphael Müller (Autor:in), 2017, Das Ende der Anonymität? "Authorship Analysis" im digitalen Zeitalter, München, GRIN Verlag, https://www.grin.com/document/1185725