Erkennungssoftware für Sprachplagiate. Zuverlässigkeit textplagiatserkennender Systeme


Akademische Arbeit, 2020

30 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

1.) Einleitung
1.1) Vorwort
1.2) Was sind Plagiate? Hintergründe und Konzepte
1.3) Anforderungen an Textplagiatserkennungssoftware

2.) Theorie und Softwareansätze
2.1) Theoretische Ansätze zur Plagiatserkennung
2.2) Abgleich von Texten: Zwischenfazit, welche der angezeigten theoretischen Möglichkeiten sich technologisch realisieren lassen

3.) Praktische Evaluierung
3.1) Auswahl aus den vorhandenen Systemen
3.2) Suchkriterien
3.3) Anwendung in der Praxis

4.) Ergebnisse und Diskussion
4.1) Zuverlässigkeit textplagiatserkennender Systeme
4.2) Was leisteten die Systeme? Wie wirksam sind die unterschiedlichen Tools?

5.) Fazit und Ausblick

6.) Materialanhang

1.) Einleitung

1.1) Vorwort

Obwohl das Thema Plagiate heutzutage eine nicht mehr so große mediale Relevanz hat wie noch vor einigen Jahren, handelt es sich dabei immer noch um eine weit verbreitete Problematik. Insbesondere durch den Fall Karl-Theodor zu Guttenberg im Jahre 2011 ins mediale Zentrum gerückt, gibt es immer wieder Berichte über Textplagiate in wissenschaftlichen Arbeiten von u.a. Politikern, gesellschaftlichen Funktionären und Universitätsangehörigen. Ferner berührt dieses Thema auch die Kunst, politische Debatten oder sogar internationale Interessen, wenn es beispielsweise um Produktplagiate geht. Selbst Softwareplagiate sind bereits festgestellt worden.

All diese Bereiche sind nicht zuletzt auch von juristischer Relevanz. Es entsteht der Anschein, als gäbe es zu allen Produkten, ganz gleich ob sie geistiger oder materieller Natur sind, auch die Bestrebung, diese zu kopieren. Entsprechend werden immer mehr Zeit, Arbeitskraft und Energie darauf verwendet, diese Kopien ausfindig zu machen.

Nachdem sich der Autor dieser Arbeit schon einmal im Jahr 2015 mit dieser Thematik auseinandergesetzt hat, soll hier eine neue Betrachtung des Themengebiets stattfinden. Diese Studie wird sich deshalb insbesondere damit beschäftigen, wie Plagiatserkennung in der Informationstechnologie möglich ist und nach welchen Mechanismen sie funktioniert. Dazu soll der Fokus insbesondere auf Textplagiatserkennung – zum Beispiel in wissenschaftlichen Arbeiten – gelegt werden. Eine Berücksichtigung von Produkt-, Kunst- oder Softwareplagiaten erfordern grundsätzlich andere Medien und Erkennungsvoraus-setzungen und sind daher nicht Gegenstand dieser Arbeit.

Dabei sollen die Konzepte und vorherrschenden Systeme zur Textplagiatserkennung im Fokus stehen. Nach einer Erörterung des Begriffes „Plagiate" und den Anforderungen, wie sie zu erkennen sind, soll eine exemplarische Studie verdeutlichen, wie die dafür notwendigen Systeme Anwendung finden bzw. welche der gestellten Anforderungen sie erfüllen. Eine Evaluierung soll abschließend im Abgleich mit offiziellen Testergebnissen und Berichten sowie in Retroperspektive zu der Arbeit des Autors aus dem Jahr 2015 stattfinden.

1.2) Was sind Plagiate? Hintergründe und Konzepte

Eine der gängigsten Definitionen für Plagiate ist, dass es sich dabei um eine „Anmaßung fremder geistiger Leistungen“ i ii handelt. Bereits 2015 konnte gezeigt werden, dass dies nicht gänzlich den Kern der Problematik trifft, da diese Definition nach dem digitalen Wörterbuch deutscher Sprache keine Unterscheidung zwischen legitimer und unerlaubter Nutzung von geistigem Eigentum vornimmt. So sind beispielsweise Zitate in wissenschaftlichen Arbeiten oder Bezüge zu anderen wissenschaftlichen Arbeiten in dieser Definition genauso miteingeschlossen wie das legitime (und nicht selten als künstlerisch wertvoll empfundene) Covern von Liedern und Musikstücken iii. Um den Vorwurf des Plagiats zu erfüllen muss also entweder zusätzlich zur Nutzung einer fremden geistigen Leistung noch der Bezug zum Original bewusst ausgelassen sein. Oder der von Gesetzen, wie dem Patent- bzw. Marken- iv und Urheberrecht v erfüllte Tatbestand der Produktfälschung oder Produktpiraterie muss erfüllt sein, wobei letztere häufig auch in einem kommerziellen Zusammenhang geschehen. Es ist anzumerken, dass solche Richtlinien vor allem nationale Regelungen darstellen, die in Ländern, wie beispielsweise China vi nicht zwangsläufig Anwendung finden, da dort ein anderes Verständnis von Eigentum und Kopie vorherrschen vii.

Mit anderen Worten, es geht darum, „die Leistung anderer Personen als die eigene auszugeben. Diese Motivation kann dabei in den unterschiedlichsten Bereichen auftreten. Das Kopieren einer Marke, eines Produktes oder eines Designs kann genauso gut Plagiatismus sein, wie das Kopieren und Verwenden fremder Texte oder Ideen.“ viii Im Bezug zu Texten wird hier auch häufig das Qualitätsurteil „intertextuell fehlerhaft“ angewandt ix.

1.2.1) Geistiges Eigentum

Es darf bei der Betrachtung von Plagiaten nicht außeracht gelassen werden, dass der in diesem Kontext angewendete Begriff des geistigen Eigentums x kein fest definierter ist. Im Handwörterbuch des Europäischen Privatrechts wird diese Form von Eigentum gegen das Eigentum an körperlichen Gegenständen abgegrenzt und als ausschließliches Recht an einem immateriellen Gut definiert, wobei dies sowohl auf Kunstwerke sowie technische Erfindungen angewandt wird xi, als auch das Patent- und Markenrecht umfasst. Eine klare Definition, wo Kunstwerk oder eine Erfindung beginnen, und eine Abgrenzung dieser Thematiken zueinander fehlt.

Fest definiert sind stattdessen die Eigentumsrechte an denselben durch nationale sowie europäische Gesetzgebung. Diese umfassen u.a. den Schutz des Eigentums vor Diebstahl und Enteignung xii sowie vor unerlaubter Vervielfältigung. Letztere stellt insbesondere im wissenschaftlichen Betrieb ein immerwährendes Problem dar. Schon alleine die Abgrenzung eines Zitates zu einer unbewussten Übereinstimmung hin zu einem vorsätzlichen Plagiat kann durch unsaubere Ausarbeitung (zufällige Übereinstimmung, falsche Formatierung, unvollständige Fußnoten, erfundene Quellen) bereits zu Problemen führen und eine Erkennung nicht immer eindeutig machen xiii xiv. Dazu muss auf Seiten des Prüfers die Voraussetzung erfüllt sein, die originale Quelle zu kennen und eine Zuordnung des kopierten Textes (oder wahlweise einer Grafik und/oder Statistik) herstellen zu können, um einen Verstoß gegen die Richtlinien zum geistigen Eigentum überhaupt nachweisen zu können. Dies stellt generell ein großes Problem dar, dessen Komplexität sich sogar noch steigert, wenn es sich um Plagiate aus Fremdsprachen handelt.

1.2.2) Informationstechnologische Voraussetzungen der Textanalyse

Diese vordefinierten Kriterien stellen insbesondere an die Informationstechnologie große Anforderungen dar. Diesem Fachgebiet kommt durch computergestützte Verfahren eine Schlüsselrolle in der Erkennung unerlaubter Kopien – insbesondere Textkopien – zu. Hier besteht im Wesentlichen die Herausforderung darin, Zeichenketten unterschiedlicher Codierungen mit einem Korpus anderer Zeichenketten auf Ähnlichkeiten abzugleichen. Bereits am Beispiel eines in der Satzstruktur umgesetzten Wortes wird deutlich, dass dieser vorausgesetzte Mechanismus schnell an seine Grenzen stößt, ein mutwillig umformulierter und als eigen herausgegebener Text sprengt die zugrundeliegenden Funktionen regelrecht xv. Bei Fremdsprachenplagiaten steigert sich zudem auch noch die Dimension des Problems, da hier eine Zuordnung nicht mehr wörtlich, sondern semantisch erfolgen müsste.

Generell setzt die informationstechnologisch begründete Textplagiatsidentifizierung nicht nur eine Vielzahl an Erkennungsmechanismen voraus, sondern auch einen möglichst umfangreichen, im Idealfall alle Texte der Weltgeschichte umfassenden Suchkorpus, mit dem der zu überprüfende Text abgeglichen werden muss. Denn ist eine Textgrundlage nicht im Suchkorpus vorhanden oder liegt sie nicht digital vor, kann diese auch nicht auf eine unerlaubte Kopie überprüft werden xvi.

Grundsätzlich stellt ein Zerlegen einer Zeichenkette (String) – unabhängig von deren Kodierung – in Textbausteine und ein darauffolgender Abgleich gegen Textbausteine fremden Ursprungs die einfachste aller Methoden dar. Hierzu wird der Text häufig auf einen Server hochgeladen, was ihn ebenfalls zur Referenz für spätere Plagiatsprüfungen machen, aber gleichzeitig auch einen Urheberrechtsverstoß darstellen kann xvii.

Große Herausforderungen stellt indes der semantische Abgleich dar, da hier nicht Zeichenketten gegen Zeichenketten, sondern Bedeutungsebenen miteinander verglichen werden müssten, was mit einer einfachen Zeichenkette ohne Zusatzinformationen kaum geleistet werden kann. Denkbar wäre der Abgleich jedes einzelnen Wortes mit einer entsprechenden Datenbank, wo jedem Wort auch ein semantischer Schwerpunkt zugeordnet werden kann, oder eine Textcodierung in XML-Datenstrukturen, die den Bedeutungsschwerpunkt eines Wortes ermittelt und zum Vergleich verwendet. Letzteres trifft jedoch auf die meisten Texte nicht zu. Da sowohl der Datenbankabgleich, als auch die Formatierung in XML außerdem nicht nur mit dem Ursprungstext sondern faktisch jedem Vergleichstext geschehen müsste, ergäbe sich hier nicht nur die Notwendigkeit einer immens großen Datenbank, sondern auch eine exponentielle Vervielfältigung der notwendigen Rechenleistung. Faktisch ist die heutige Software dazu nicht in der Lage xviii. Es ist entsprechend anzunehmen, dass die Steigerungsform, dies auch noch in allen Fremdsprachen zu leisten, in nächster Zukunft unbewältigt bleiben wird.

1.3) Anforderungen an Textplagiatserkennungssoftware

Nichtsdestotrotz gibt es bereits Programme und Forschungsgruppen, die Plagiatserkennungssoftware anbieten oder ausbauen, was die Herausforderung stellt, diese auch qualitativ einzuordnen. Bereits 2015 stellte der Autor dieser Arbeit eine Reihe von Kriterien auf, die eine gute Plagiatserkennungssoftware erfüllen muss. Diese haben sich über die Jahre nur wenig verändert, sodass sie auch heute noch gelten:

Eine ideale Software „muss in Texten aus anderen Texten übernommene Stellen ausfindig machen und (im Idealfall mit Quelle) als bloße Kopien kenntlich machen können“ xix. Das betrifft nicht nur einfache Kopien („ Copy & Paste“) sowie Eigenplagiate, sondern auch Plagiate, die aus mehreren Textbausteinen unterschiedlichen Ursprungs („Shake & Paste“) zusammengestellt sind, die durch Umformulierung verfremdet oder aus anderen Sprachen („ Fremdsprachenplagiat“) übernommen wurden xx. Mögliche weitere Plagiatsarten sind auch das Ideenplagiat, wo zwar ein Inhalt übernommen, durch geschickte Umschreibung aber so verändert wird, dass der Bezug zum Original nicht mehr herstellbar ist sowie das Strukturplagiat, wo Gliederung, Satzaufbau, Syntax usw. aus fremden Quellen übernommen werden xxi. Für diese Arten von Plagiaten sind bisher keine Analysetools bekannt.

Im Jahr 2015 spielte auch das Beispiel des Stilplagiats eine Rolle, das zum damaligen Zeitpunkt durch computerbasierte Mechanismen nicht identifizierbar war. Auch heute stellt die Erkennung von stilistischen Kopien noch ein Problem dar, denn „eine Software ist im Regelfall darauf programmiert, exakte Übereinstimmungen von Texten nachzuweisen und aufzuzeigen. Wird die Struktur eines Satzes bereits allein durch das Umstellen eines Wortes geändert, erzeugt das für den Programmierer von Plagiatserkennungssoftware bereits erhebliche Probleme.“ xxii Wie Michael Tschuggnall, Informatiker an der Universität Innsbruck, in seinem Aufsatz „Automatisierte Plagiatserkennung in Textdokumenten“ zeigt, gibt es auf diesem Gebiet jedoch erste Fortschritte, die auch kurz thematisiert werden sollen. Stilistische Eigenarten zu identifizieren und anschließend mit anderen Texten abzugleichen erscheint damit nach wie vor als Herausforderung aber nicht mehr als unlösbare Aufgabe.

2.) Theorie und Softwareansätze

2.1) Theoretische Ansätze zur Plagiatserkennung

Beim Aufstellen dieser grundsätzlichen Anforderungen ist die Frage zentral, wie diese technologisch realisiert werden können. Hierzu gilt es auch zu hinterfragen, welche Art von Plagiat eine Software erkennen soll, da mit unterschiedlichen Erkennungsmerkmalen auch unterschiedliche technologische Realisierungen verbunden sind.

Entsprechend der zuvor aufgezeigten Anforderungen sollen deshalb im Folgenden unterschiedliche Erkennungsmechanismen und -ansätze erörtert werden.

2.1.1) Erkennung einfacher Textkopien

Alleine beim einfachsten Fall einer reinen Textkopie ist klärungsbedürftig, ab wann von einem Plagiat zu sprechen ist. Software per se ist (zumindest laut Ansgar Schäfer Herausgeberin der Zeitschrift „Plagiatsprävention“, Uni Konstanz) nicht in der Lage, dies abschließend zu beurteilen – eine Einordnung bedarf immer eines menschlichen Korrekteurs xxiii. Damit stellt sich an den Programmierer eines solchen Tools auch immer die Frage, was überhaupt miteinander abgeglichen werden kann und muss, um den gerechtfertigten Verdacht eines Plagiats aussprechen zu können. So erscheint es beispielsweise nicht sinnvoll, jedes einzelne Wort eines Textes mit allen Worten aller anderen zur Verfügung stehenden Texte abzugleichen – abgesehen von der benötigten immensen Rechenleistung für solch eine kleinschrittige Suche innerhalb eines potenziell unendlichen Suchkorpus ist das Ergebnis, dass einzelne Worte in vielen anderen Texten auffindbar sind, bereits vorwegnehmbar.

Die kleinste sprachstrukturelle Einheit, bei der ein Abgleich sinnvoll erscheint, ist der Satz. Auch dieser muss eine Mindestwortzahl erreichen, um einen Abgleich zum Zwecke der Identifizierung von Plagiaten praktikabel werden zu lassen. Für kleine Satzstrukturen, die im Deutschen zum Beispiel nur aus einem Subjekt, einem Prädikat und (wahlweise noch) einem Objekt bestehen, erscheint ein Abgleich nicht sinnvoll. Denn Übereinstimmungen mit solchen minimalen Konstruktionen können mit vergleichsweise hoher Wahrscheinlichkeit rein zufällig entstehen. Generalisiert lässt sich annehmen, dass die Wahrscheinlichkeit einer zufälligen Übereinstimmung signifikant abnimmt, je komplexer eine Sprachstruktur in sich ist. Desto höher liegt demnach auch die Wahrscheinlichkeit, es bei einer Übereinstimmung zweier komplexer Strukturen mit einer Kopie (und damit mit einem Plagiat) zutun zu haben.

Je komplexer eine Struktur, desto problematischer ist gleichzeitig deren Erfassung und Verarbeitung auf informationstechnologischer Basis. Der gangbare Weg stellt eine Kompromisslösung zwischen Erkennung und Abgleich einzelner Satzstrukturen bzw. „Fragmente“ xxiv dar, die für eine Verarbeitung nicht zu komplex, aber umfangreich genug sind, um zufällige Übereinstimmungen möglichst ausschließen zu können. Beispiele solcher Strukturen könnten Konstruktionen aus Haupt- und Nebensatz in beliebiger Variation sein.

2.1.2) Sprachtheoretische Grundlagen

Grundsätzlich stellt sich aber auch die Frage, ob eine solche Textvergleichungssoftware überhaupt in der Lage sein muss, Satzstrukturen erkennen und damit analysieren zu können. Der denkbar einfachste Fall wäre, dass eine Software lediglich eine bestimmte Anzahl Worte als Suchparameter abzählt, diese dann mit allen vorhandenen Suchtexten auf identische Merkmale abgleicht und nach Abschließen dieser Suche den Suchindex innerhalb des Textes weiter verschiebt. Diese simple Methode ist damit gleichzeitig auch besonders fehleranfällig, denn es braucht in einem Satz nur ein Komma verschoben oder ein Rechtschreibfehler eingebaut zu sein und schon ist die Software nicht mehr in der Lage, ein Plagiat zu erkennen. Eine Verbesserung dieser Methode stellt nach Michael Tschuggnall die „Algorithmierung der Suchfragmente“ dar, die den Mechanismus immerhin gegenüber solchen kleinen Fehlern robust macht xxv.

In solchen Fällen kann die grammatikalische Bedeutung eines Wortes nicht mehr außen vorgelassen werden. Theoretisch bestünde die Möglichkeit, aus einem eingelesenen Satz einfach eine Liste von Wörtern zu erstellen und im Suchkorpus zu überprüfen, ob alle oder viele Wörter dieser Liste in einem anderen Text möglichst nahe beieinanderstehen. Je generalisierter der Prozess abläuft, desto ungenauer ist jedoch dessen Aussagekraft, schon alleine durch das zuvor erwähnte Problem der unbewussten und nicht beabsichtigten Ähnlichkeiten. Eine Kontextualisierung des entsprechenden Textausschnittes ist stets notwendig, was auf Softwarebasis noch eine große Schwierigkeit darstellt.

Semantische Wortbedeutungen lassen sich auf informationstechnologischer Grundlage stattdessen zwar identifizieren, setzen jedoch in der Regel spezielle Textcodierungen voraus (auf die Möglichkeit der XML-Codierung wurde bereits hingewiesen). Dies für alle Texte des Suchkorpus sowie den zu überprüfenden Text zu erfüllen, stellt seinerseits einen erheblichen Aufwand dar und erscheint nur bedingt praktikabel, sodass dieses Vorgehen in Verbindung mit dem extrem hohen Rechenaufwand wenig hilfreich erscheint.

2.1.3) Stilistische Textanalyse

Eine Weiterentwicklung der Lösung benennt Michael Tschuggnall in seinem Aufsatz „Automatisierte Plagiatserkennung in Textdokumenten“ die Möglichkeit der Textstilanalyse, um Aussagen über die Wahrscheinlichkeit eines Plagiats innerhalb eines fertigen Textes anstellen zu können xxvi. Er bezieht dazu nicht nur augenscheinliche Auffälligkeiten wie uneinheitliche Formatierungen oder abweichende Absatzstrukturen mit ein. Sondern er spricht auch von „intrinsischer Erkennung“ von Textmerkmalen im Gegensatz zu der (auch hier bisher behandelten) externen Untersuchung. Hierbei beschränke sich die Analyse auf den zu untersuchenden Text allein, indem z.B. das „Vokabular, die (durchschnittliche) Satzlänge oder die Komplexität der verwendeten Grammatik“ untersucht wird, wofür zuletzt Autorenprofile erstellt werden, die eine „automatisierte Schriftstück-Autor-Zuordnung“ leisten können sollen xxvii. Zwar gesteht er ein, dass dieser so genannte „Plag-Inn-Algorithmus“ auch keine Aussagekraft darüber treffen kann, wie sicher ein Plagiat vorliegt und diese Methode obendrein weniger akkurat ist als ein externer Suchabgleich. Jedoch erscheint diese zusätzliche Analyse sinnvoll, um in Ergänzung stärker begründete Hinweise liefern zu können.

Denkbar wäre es, diese Methode auch insofern zu modifizieren, als dass über die Bedeutungsebene Texte in unterschiedlichen Sprachen miteinander verglichen werden. Auch der in zwei unterschiedlichen Texten verwendete Schreibstil ließe sich so überprüfen. So ließe sich eine technologisch basierte Aussage darüber treffen, ob ein Sprach- oder im zweiten Fall ein Stilplagiat vorliegt.

2.2) Abgleich von Texten: Zwischenfazit, welche der angezeigten theoretischen Möglichkeiten sich technologisch realisieren lassen

Wie die erwähnten Mechanismen zeigen, existieren bereits Methoden, um dem Problem der Plagiatserkennung zu begegnen. Problematisch ist nach wie vor die Unterscheidung zwischen Plagiat und regulärem Zitat. Davon abgesehen erscheint eine Identifikation einfacher Kopien jedoch theoretisch genauso möglich wie das Erkennen geringfügig veränderter Textauszüge, vorausgesetzt die Quelle ist bekannt. Durch Algorithmisierung und Sprachanalyse bestehen inzwischen weitere Mechanismen zur Verfeinerung der Suchfunktionen. Die Analyse sprachlicher Eigenarten wie die intrinsische Textanalyse stellt weiterhin erste Ansätze zur Erkennung von Stil- sowie Sprachplagiaten dar.

Zentral soll nun die Frage sein, wie diese Mechanismen praktisch umgesetzt werden und welche Ergebnisse sie liefern. Dazu sollen im Folgenden einige namhafte Plagiatserkennungstools exemplarisch vorgestellt und getestet werden. In einer Auswertung dieser Evaluation soll dann im Vergleich zu bereits vorhandenen Testergebnissen aufgezeigt werden, ob diese Tools in der Lage sind, unterschiedliche Arten von Plagiaten zu erkennen und inwiefern sie verwertbare Ergebnisse liefern.

3.) Praktische Evaluierung

3.1) Auswahl aus den vorhandenen Systemen

Bei der Auswahl der für diese Arbeit relevanten Tools wurde ein großes Augenmerk darauf gelegt, welche Institutionen entsprechende Software verwenden und welche Ergebnisse aus früheren Prüfungen existieren. Einen maßgeblichen Punkt stellten hier die Testergebnisse der HTW Berlin aus den Jahren 2010 und 2013 dar xxviii. Basierend auf diesen wurden insbesondere Programme herangezogen, die sich in der Vergangenheit als mindestens „eingeschränkt hilfreich“ erwiesen haben.

Nicht alle gewünschten Tools konnten für diese Arbeit verwendet werden. CopyScape wurde beispielsweise ausgespart, weil es sich auf Internetinhalte und damit nur auf Webseiten beschränkt xxix, nicht aber wissenschaftliche Arbeiten oder literarische Texte mit abdeckt. Auch Ephorus konnte nicht verwendet werden, weil es inzwischen in Turnitin integriert ist xxx, welches z.B. von Scribbr, der Universität Hamburg xxxi und Universität Hohenheim xxxii genutzt wird. Leider konnte Turnitin ebenfalls nicht mitaufgenommen werden, weil das Kontaktformular der Homepage zu einem „ 404-Not Found “-Fehler führte und eine Registrierung nur mit zuvor erteilter ID möglich war. Weiterhin wurde für das Tool Plagium vom Hersteller kein Zugriff erteilt, da das Tool laut diesem nicht umfangreich genug sei, um eine Studie dieser Größenordnung zu unterstützen und kein Support für deutsche Sprache möglich wäre. Der kostenlose Funktionsumfang, Texte von maximal 1000 Zeichen Länge zu überprüfen, stellte sich im Verlauf der Studie als unzureichend heraus. Die Anbieter von Bachelorprint und Noplagiat.de reagierten nicht auf die Anfrage.

Die abschließende Testauswahl fiel dementsprechend auf folgende Programme:

Abbildung in dieser Leseprobe nicht enthalten

(- Tabelle 1: Übersicht der für diese Studie getesteten Tools, sortiert nach Kostenfaktor. Bedingt kostenlos bedeutet, die Software bietet (trotz kostenloser Registrierung) vollen Funktionsumfang nur gegen Bezahlung an)

3.2) Suchkriterien

Um eine Vergleichbarkeit der späteren Testergebnisse zu gewährleisten, müssen alle Tests denselben Kriterien folgen. Dazu werden alle Softwares mit denselben Texten geprüft. Orientierung schafft hier der vorangegangene Test aus dem Jahr 2015, der mit PlagScan (damals noch unter dem Namen „ PlagiatCheck “) nur eine Plagiatserkennungssoftware verwendete. Damals wurde der Fokus insbesondere auf die Erkennung einfacher Kopien sowie auf Sprachplagiate gelegt. Diese sollen auch hier den wesentlichen Teil ausmachen. Eine Überprüfung auf stilistische oder „intrinsische Erkennungsmerkmale“ wird nicht stattfinden, empfiehlt sich aber als Arbeitsgrundlage für nachfolgende Evaluierungen.

Einige Tools (Grammarly, DupliChecker) bieten über die Plagiatsprüfung hinaus auch Tools zur selbstständigen Textkorrektur oder Paraphrasierung an, die nicht Bestandteil dieses Tests sein werden.

Alle zur Prüfung herangezogenen oder erstellten Texte sind dieser Arbeit als Materialanhang beigefügt und mit der Abkürzung MAT nummeriert.

Insgesamt sollen folgende nach Kategorien sortierte Kriterien überprüft werden:

1.) Erkennung von „ Copy & Paste“- Plagiaten

Es wird vorausgesetzt, dass die entsprechenden Tools einfache Kopien aus möglichst unterschiedlichen Texten erkennen und kennzeichnen können. Je größer der kopierte Textbaustein ist, desto deutlicher soll eine Aussage darüber getroffen werden, in welchem Umfang (und idealerweise von welcher Quelle) eine Kopie vorliegt. Die Art den Ursprung des kopierten Texts aufzuzeigen, sowie die dazugehörige Erörterung, gilt es als Qualitätsmerkmal zu evaluieren. Der Test soll aufzeigen, wie hilfreich ein Tool beim Einordnen von Referenzen ist, um darauf aufbauend eine Unterscheidung zwischen Zitat und Plagiat treffen zu können.

Bereits im Jahr 2015 wurden dazu u.a. das Goethe-Gedicht vom Erlkönig, sowie ein Wikipediaartikel zur Überprüfung herangezogen. Diese Tests sollen hier ergänzt werden.

[...]


i https://de.wikipedia.org/wiki/Plagiat (Zuletzt aufgerufen 25.9.2019)

ii https://de.wikipedia.org/wiki/Digitales_W%C3%B6rterbuch_der_deutschen_Sprache (Zuletzt aufgerufen 25.9.2019)

iii http://web.de/magazine/unterhaltung/musik/geklaut-unverschaemtesten-musik-plagiate-30504234 (Zuletzt aufgerufen 9.10.2019)

iv Gesetz über den Schutz von Marken und sonstigen Kennzeichen, https://www.gesetze-im-internet.de/markeng/index.html (Zuletzt aufgerufen 25.9.2019)

v Gesetz über Urheberrecht und verwandte Schutzrechte, https://www.gesetze-im-internet.de/urhg/index.html (Zuletzt aufgerufen 25.9.2019)

vi http://www.sueddeutsche.de/politik/urheberrechte-in-china-im-schattenreich-der-mitte-1.880627 (Zuletzt aufgerufen 10.10.2019)

vii https://irights.info/artikel/kopieren-faelschen-optimieren-shanzhai-kultur-in-china/26626 (Zuletzt aufgerufen 20.10.2019)

viii Daniel Janz: Hausarbeit zum Modul Computerlinguistik zum Thema Plagiatserkennung, unter Dr. Jürgen Hermes, 2015, Universität zu Köln, Seite 3

ix Plagiate: Verhindern geht vor! Projekt Plagiatsprävention – Folge 1, in Bericht in Bibliothek Aktuell 98/2014, Seite 16/17, Universität Konstanz, https://ojs.ub.uni-konstanz.de/ba/article/view/5872/5362 (Zuletzt aufgerufen 13.1.2020)

x Geistiges Eigentum https://de.wikipedia.org/wiki/Geistiges_Eigentum (Stand 2.3.2020)

xi Alexander Peukert: Geistiges Eigentum (allgemein), in: Jürgen Basedow, Klaus J. Hopt, Reinhard Zimmermann: Handwörterbuch des Europäischen Privatrechts, Band I, 2009, S. 648–652 (siehe https://www.jura.uni-frankfurt.de/43641303/Peukert_ geistiges_eigentum__allgemein_.pdf - Zuletzt aufgerufen 13.1.2020)

xii Grundgesetz für die Bundesrepublik Deutschland, Artikel 14 (https://www.gesetze-im-internet.de/gg/art_14.html - Zuletzt aufgerufen 13.1.2020)

xiii Ansgar Schäfer: Was kann Plagiatserkennungs-Software? Projekt Plagiatsprävention – Folge 2, in Bericht in Bibliothek Aktuell 99/15.5.2015, Seite 19/20, Universität Konstanz, https://ojs.ub.uni-konstanz.de/ba/article/view/6168/5636 (Zuletzt aufgerufen 13.1.2020)

xiv IFM-GEOMAR-Bibliothek, Plagiat, Leibniz, Institut für Meereswissenschaften an der Universität Kiel, FSR 3, Oktober 2010, Seite 4

xv Vergleiche: Michael Tschuggnall: Automatisierte Plagiatserkennung in Textdokumenten: Was der Schreibstil eines Autors über die Echtheit verrät. In: Sandra Mauler, Heike Ortner, Ulrike Pfeiffenberger (Hg.): Medien und Glaubwürdigkeit. Interdisziplinäre Perspektiven auf neue Herausforderungen im medialen Diskurs. Innsbruck University 2017, S. 131

xvi Michael Tschuggnall: Automatisierte Plagiatserkennung in Textdokumenten, Seite 131 ff

xvii Ansgar Schäfer: Was kann Plagiatserkennungs-Software? Projekt Plagiatsprävention – Folge 2, Seite 19

xviii Wie 17

xix Daniel Janz: Hausarbeit zum Modul Computerlinguistik zum Thema Plagiatserkennung, Seite 4

xx https://plagiat.htw-berlin.de/ff-alt/03schule/wie.html (Zuletzt aufgerufen 18.2.2020)

xxi https://druck-deine-diplomarbeit.de/blog/plagiat-vermeiden/ (Zuletzt aufgerufen 18.2.2020)

xxii Daniel Janz: Hausarbeit zum Modul Computerlinguistik zum Thema Plagiatserkennung, Seite 5

xxiii Wie 17

xxiv Vergleiche: Michael Tschuggnall: Automatisierte Plagiatserkennung in Textdokumenten, Seite 132

xxv Wie 24

xxvi Michael Tschuggnall: Automatisierte Plagiatserkennung in Textdokumenten, Seite 131

xxvii Wie 24

xxviii Siehe https://plagiat.htw-berlin.de/software/ (Zuletzt aufgerufen 18.2.2020)

xxix https://www.copyscape.com/about.php (Zuletzt aufgerufen 18.2.2020)

xxx https://www.ephorus.com (Zuletzt aufgerufen 18.2.2020)

xxxi https://www.wiso.uni-hamburg.de/bibliothek/ueber-die-bibliothek/neues-aus-der-bibliothek/nachricht17-001-recherchetipp20.html (Zuletzt aufgerufen 18.2.2020)

xxxii https://kim.uni-hohenheim.de/103596 (Zuletzt aufgerufen 18.2.2020)

Ende der Leseprobe aus 30 Seiten

Details

Titel
Erkennungssoftware für Sprachplagiate. Zuverlässigkeit textplagiatserkennender Systeme
Hochschule
Universität zu Köln
Veranstaltung
Angewandte linguistische Datenverarbeitung
Note
1,3
Autor
Jahr
2020
Seiten
30
Katalognummer
V955024
ISBN (eBook)
9783346296856
ISBN (Buch)
9783346296863
Sprache
Deutsch
Anmerkungen
Dies ist eine Studie inklusive Praxistests zur Funktionsweise und Zuverlässigkeit von Plagiats erkennenden Systemen. In dieser Arbeit nähert sich der Autor der Frage, was Plagiate sind, wie sie zu erkennen sind und welche, heutzutage aktuellen und sich im Gebrauch befindlichen, Systeme in welchem Umfang dazu in der Lage sind.
Schlagworte
Plagiatserkennungssoftware, Sprachverarbeitung, Online-Tools, Plagiate, Computerlinguistik, Textanalyse, Digital Humanities, Informationsverarbeitung, Informatik, Geistiges Eigentum, Nutzerfreundlichkeit, Usability
Arbeit zitieren
Daniel Janz (Autor), 2020, Erkennungssoftware für Sprachplagiate. Zuverlässigkeit textplagiatserkennender Systeme, München, GRIN Verlag, https://www.grin.com/document/955024

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Erkennungssoftware für Sprachplagiate. Zuverlässigkeit textplagiatserkennender Systeme



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden