März 8, 2021

Schreibstilanalyse, Ghostwriter-Erkennung und akademische Auftragsarbeiten: Die Grundlagen

Im Jahr 2020 haben Lehrende einen starken Anstieg an Haus-, Semester-, Bachelor- und Master-Arbeiten sowie anderer akademischer Papers gesehen, die nicht von der Person verfasst wurde, die vorgab, sie geschrieben zu haben. Immer mehr Lernende haben ihre Texte entweder von Familienangehörigen, Freunden oder sogenannten ‚Ghostwritern‘ verfassen lassen, um sie dann als eigene Arbeiten einzureichen.

Lässt sich der Autor eines Textes erkennen?

Diese Frage war der Ausgangspunkt für Ouriginal, ein Feature zu entwickeln, das es ermöglicht, die Originalität eines Textes anhand des Schreibstils zu beurteilen. Während des Forschungs- und Entwicklungsprozesses entdeckten unsere Entwickler, dass die sogenannte ‚Peer-Group-Similarity‘-Hypothese zur Lösung des in der Computerlinguistik viel diskutierten ‚Authorship-Verification‘ Problems angewendet werden kann.

Im Vergleich zur traditionellen Lösung zum Erkennen von Plagiaten innerhalb einer Arbeit betrachtet Ouriginal Metrics eine ganze Gruppe von Dokumenten für die Analyse. Unsere Daten zeigen bei einem Vergleich von Arbeiten, die von einer Gruppe an Schülern und Schülerinnen derselben Klasse zum selben Thema geschrieben wurden, eine Gaußsche Verteilung für die von uns ausgewählten Metriken. Die meisten Lernenden konzentrieren sich in der Mitte des Wertebereichs, einige wenige liegen jedoch unter- oder oberhalb des Mittelwerts.

Ausreißer im unteren Bereich betrachten wir als leistungsschwache Schülerinnen und Schüler, die wir nicht hervorheben. Diejenigen, die signifikant besser als ihre Gruppenmitglieder abschneiden werden zur weiteren Prüfung gekennzeichnet. Hohe Werte bei einer Reihe von Metriken können entweder auf einen erstaunlich begabten Schülerinnen und Schülern oder einen potenziellen Ghostwriter hinweisen. Nach der Kennzeichnung durch Ouriginal Metrics liegt die Entscheidung für eine der beiden Kategorien daher im Ermessen des Lehrers.

Unser Tool möchte keine Klassifizierung vornehmen, sondern lediglich auf aus der Norm fallende Arbeiten aufmerksam machen. Wir sind uns bewusst, dass die Werteverteilung für diese Metriken, das Ergebnis kulturell spezifischer pädagogischer Annahmen sein kann, mit denen wir uns zu einem späteren Zeitpunkt auseinandersetzen wollen. Um diese Annahmen abzuschwächen, stützen wir uns zunächst auf insgesamt acht Kennzahlen zur Charakterisierung jedes Dokuments.

Vergleich von Texten eines einzelnen Autors

Zukünftig ist geplant, den Vergleich zur Validierung des Autors mit zuvor hochgeladenen Dokumenten dieses Studenten durchzuführen. Die Teilnehmer der jährlichen PAN-Wettbewerbe haben dieses Problem bereits intensiv erforscht, sodass die so genannte  ‚Authorship Verification‘ bereits gründlich wissenschaftlich diskutiert wurden. Damit Arbeiten auf diese Weise analysiert und verglichen werden können, muss zunächst zunächst eine Datengrundlage für jeden/jede Student/in erlangt werden. Deshalb führt Ouriginal derzeit Klassen- und Jahrgangsstufen-übergreifende Vergleiche durch, wodurch Daten gesammelt werden können.

Das Konzept der ‚Speech Communities‘

Um unsere Herangehensweise in den Kontext verschiedener wissenschaftlicher Ansätze einzuordnen, wenden wir uns der Dialektologie zu. Die Dialektologie verfolgt einen quantitativen Ansatz zur Identifizierung von ‘prototypischen’ Sprechern. Gleichzeitig werden die Prävalenz von Sprachvarianten und die Sprachmerkmale, die Dialektgruppen bilden geographisch eingeordnet. Ein weiterer Ansatz, die sprachliche Anthropologie, befasst sich mit Sprachvariationen innerhalb von Gemeinschaften und den sozialen Bedeutungen, die durch verschiedene Kommunikationsformen konstruiert werden. In diesen beiden spannenden Bereichen gibt es das Forschungskonzept der ‘Speech Communities’, bei dem regelmäßig interagierende Gruppen von Sprechern, Muster des Sprachgebrauchs teilen, welche sie als Mitglied ihrer jeweiligen Gemeinschaften identifizieren. Unser Ansatz überträgt dieses Konzept auf den Schreibstil von Personen und kombiniert es mit der ‘Peer-Group-Similarity’-Hypothese.

Kann man ‚Ghostwriter‘ in einer Gruppe von anderen Autoren derselben Klasse/Jahrgangsstufe erkennen?

In einem Test haben wir die Arbeit eines Ghostwriters in ein Set von Dokumenten eingefügt, das von bekannten Schülern und Schülerinnen derselben Klasse geschrieben wurde. Unser System hat den Ghostwriter aus diesem Datensatz identifiziert, da er für fast alle derzeit in Ouriginal Metrics implementierten Messwerte signifikant höhere Werte erzielte. Die pädagogische Forschung zur Erziehung in einem Umfeld mit verschiedensprachlichen Individuen, auch oft multikulturelles Klassenzimmer genannt, kann uns Hinweise geben was Sprachgemeinschaften und Peer Groups ausmacht. Dies wird immer wichtiger, da wir in der Realität zunehmend globalisierte und heterogene Klassenzimmer analysieren können müssen.

Hat dieser Artikel Ihr Interesse geweckt?  Welche Methoden wenden Sie an, um sicher zu stellen, um den Autor eines Textes zu ermitteln? Wir freuen uns, von Ihnen zu hören!

This website uses cookies to improve the site’s overall user experience and performance. Read more here.