Das Ende der Anonymität? "Authorship Analysis" im digitalen Zeitalter


Hausarbeit, 2017

26 Seiten, Note: 1,0


Leseprobe


Inhaltsübersicht:

1. Einleitung

2. Begriffsdefinition 'Authorship Analysis
2.1 Stilometrische Merkmale
2.2 Auswahl der Merkmale
2.3 Technische Umsetzung

3. Gefahren der 'Authorship Analysis' für Bürger und Institutionen

Anhang

Literatur:

1. Einleitung

'Authorship Analysis' hat seinen historischen Ursprung in der Untersuchung ungeklärter oder angezweifelter Urheberschaft von literarischen Werken. Prominentestes und frühes Beispiel ist die Frage nach der Autorenschaft der Werke William Shakespeares. So wurde die Urheberschaft William Shakespeares an den ihm zugeschriebenen Werken bereits seit dem 18. Jahrhundert immer wieder angezweifelt. Es wurde vermutet, dass die ihm zugeschriebenen Werke von einem oder mehreren anderen Autoren geschrieben wurden.1

Bereits Ende des 19. Jahrhunderts wurden zur Klärung dieser Frage statistische Untersuchungen von Texten durchgeführt, unter der Annahme, dass sich gewisse zählbare Merkmale feststellen lassen, welche zuverlässig verschiedene Autoren unterscheiden.

Im 21. Jahrhundert sind die technischen Möglichkeiten zur Untersuchung großer Datenmengen vorhanden und werden immer mehr durch Polizei und Geheimdienste eingesetzt. Gerade im Bereich der Cyberkriminalität, wo sich Täter in einem anonymen Rahmen bewegen können, finden Verfahren der 'Authorship Analysis' in verschiedenen Bereichen (Foren2, Internetseiten3, e-mails, Programmcodes4 5 ) Anwendung.

Die Anwendung auf 'real life Data' hat der Anwendung auf literarische Texte ihren Rang abgelaufen und dominiert auch die wissenschaftlichen Publikationen. Die technischen Fortschritte, die im Rahmen der fornsischen Linguistik errungen werden, lassen sich auch auf die Analyse literarischer Werke übertragen.

Die Anwendung von 'Authorship Analysis' birgt aber auch Risiken für Menschen und Institutionen, die Texte veröffentlichen, denn aus diesen Texten lassen sich Rückschlüsse auf den Autoren und auf persönliche Merkmale und Lebensumstände ziehen.

Wie alt ist der Autor ? Welches Geschlecht hat der Autor? Wie hoch ist sein Bildungsniveau? Was sind seine politischen Überzeugungen? Welcher sozialen Schicht entstammt er? Welchen kulturellen Hintergrund hat er? Welche Gefühle transportiert er in dem Text? In welchen 'Communities' ist er aktiv? Mit wem hat er direkten Kontakt?

Dies alles sind Fragen die potenziell automatisiert von Computern aus Texten 'errechnet' werden können. Inwiefern dies aktuell tatsächlich möglich ist, und wenn ja in welchem Ausmaß möchte ich in dieser Arbeit untersuchen.

Zu diesem Zwecke werde ich zunächst eine Begriffsdefinition der 'Authorship Analysis' und ihrer Unterkategorien geben. Im darauf folgenden Abschnitt beschäftige ich mich dann mit der technischen Umsetzung. Dazu werde ich zunächst einen Überblick über die stilometrischen Merkmale geben, die untersucht werden können und aktuell diskutiert werden.

Im Anschluss stelle ich die technischen Verfahren selbst überblicksartig vor ohne jeweils ins kleinste Detail zu gehen.

Im abschließenden Kapitel werde ich anhand konkreter Beispiele (Fall Andrej Holm, SpiegelMining, etc.) die potenziellen Gefahren für Menschen und Institutionen diskutieren, die durch diese technischen Möglichkeiten der 'Authorship Analysis' erwachsen.

2. Begriffsdefinition 'Authorship Analysis

Unter 'Authorship Analysis' versteht man die Untersuchung eines Textes in Hinblick auf Merkmale, die Rückschlüsse auf den Autoren zulassen. 'Authorship Analysis' hat seine Ursprünge in der Stilometrie, welche den literarischen Stil eines Textes mithilfe statistischer Methoden hinsichtlich bestimmter stilometrischer Merkmale (siehe 3.1 stilometrische Merkmale) untersucht.

'Authorship Analysis' lässt sich in drei Kategorien unterteilen:

'Authorship Attribution / Identification'

'Authorship Profiling / Characterization' und

'Similarity Detection' .

'Authorship Attribution' ist die historische Kerndisziplin und untersucht die Wahrscheinlichkeit, dass eine bestimmte Person der Autor eines Textes ist ( anhand von anderen Texten).

Beim 'Authorship Profiling' werden anhand eines oder mehrerer Texte Rückschlüsse auf persönliche Merkmale des Autors (Alter, Geschlecht, Bildungsniveau, kultureller Hintergrund, sozialer Hintergrund, Sprachkenntnisse/Muttersprache) gezogen.

'Similarity Detection' spielt vor allem im Bereich der Plagiatssuche eine Rolle und vergleicht mehrere Texte hinsichtlich ihrer Gemeinsamkeiten.

2.1 Stilometrische Merkmale

Lexikalische Merkmale

Unter den lexikalischen Merkmalen versteht man alle die Lexik/Schreibung betreffenden zählbaren wort- und zeichenbasierten Merkmale. Dazu zählen bei den zeichenbasierten Merkmalen unter anderem Gesamtzahl der Zeichen, Anzahl der Buchstaben/Zahlen/Leerfelder, Frequenz der Buchstaben und Frequenz der Sonderzeichen (siehe Abbildung 1)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: siehe El Manar El Bouanani, S., Kassou, I.: Authorship Analysis Studies: A Survey.

Bei den wortbasierten Merkmalen finden sich 'einfache' Merkmale wie Anzahl der Worte, durchschnittliche Wortlänge, durchschnittliche Satzlänge, Gesamtzahl unterschiedlicher Wörter (Lexikon), Hapax legomena (Wörter, die nur einmal im Korpus vorkommen) aber auch komplexere Messverfahren auf die ich nun in aller Kürze eingehen werde. Bei ihnen handelt es sich vor allem um Verfahren zur Messung der Komplexität des Wortschatzes. Die Messungen beruhen in der Regel auf folgenden Merkmalen:

Anzahl der Token (=Wortzahl eines Textes): N

Anzahl der Types (= Anzahl unterschiedlicher Wörter) V

Anzahl der hapax legomena (=Types, die genau einmal vorkommen) V1

Anzahl der dislegomena (=Types, die genau zweimal vorkommen) V2

Anzahl der Types, die i Mal im Text vorkommen Vi

Yule' s K 6 gibt die Wahrscheinlichkeit an, dass man beim zufälligen Auswählen zweier Wörter eines Textes zweimal das gleiche Wort erhält. Höher frequente Wörter werden hierbei stärker gewichtet als hapax legomena. Je komplexer der Wortschatz ist desto kleiner ist K und vice versa.

K = 10.000 * (M/N² – 1/N) M = ∑ i²*Vi

Simpson's D ist eine vergleichbare Methode, die äquivalent zu Yule's K ist.

Das von Anthony Honoré vorgeschlagene Maß Honoré's R basiert auf der Frequenz von hapax legomena und geht davon aus, dass ein Autor, der viele hapax legomena benutzt, über einen elaborierteren Wortschatz verfügt. R variiert üblicherweise zwischen 1000 – 2000, wobei höhere Werte auf einen komplexeren Wortschatz hinweisen.

[...]


1 McMichael, G., Glenn, E.: Shakespeare and His Rivals, A Casebook on the Authorship Controversy. Odyssey Press, New York 1962.

2 Spitters, M., Klaver, F., Koot, G. : Authorship Analysis on Dark Marketplace Forums , Conference Paper (European Intelligence & Security Informatics Conference (EISIC) ) 2015.

3 Abbasi, A., Chen, H.: Applying Authorship Analysis to Extremist-Group Web Forum Messages University of Arizona. In: IEEE Intelligent Systems , vol. 20, no. 5, pp. 67-75, Sept.-Oct. 2005.

4 Cook, R., Oman, W.P. : Programming style authorship analysis. In the proceeding of the 17th annual ACM computer Science Conference, pp : 320-326.

5 Frantzeskou, G., Gritzalis, S., Katsikas, S., Stamatatos,E. : Effective identification of source code authors using byte-level information. In: Proceedings of the 28th International Conference on Software Engineering, 2006, pp : 893-896.

6 Tanaka-Ishii , K., Aihara, S. : Computational Constancy Measures of Texts – Yule's K and R'enyi's Entropy. In: Computational Lingusitics, September 2015, Vol. 41, No. 3, S. 481-205.

Ende der Leseprobe aus 26 Seiten

Details

Titel
Das Ende der Anonymität? "Authorship Analysis" im digitalen Zeitalter
Hochschule
Bergische Universität Wuppertal  (Romanistik)
Note
1,0
Autor
Jahr
2017
Seiten
26
Katalognummer
V1185725
ISBN (eBook)
9783346627889
ISBN (Buch)
9783346627896
Sprache
Deutsch
Schlagworte
Anonymität, Stilometrie, Authorship Analysis, authorship, SVM, maschinelles Lernen, Authorship attribution, profiling, writeprints
Arbeit zitieren
Raphael Müller (Autor:in), 2017, Das Ende der Anonymität? "Authorship Analysis" im digitalen Zeitalter, München, GRIN Verlag, https://www.grin.com/document/1185725

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Das Ende der Anonymität? "Authorship Analysis" im digitalen Zeitalter



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden