juni 22, 2021

False positives – ett underskattat fenomen

False positive kallas det när exempelvis ett test visar ett resultat som egentligen inte stämmer. Inom datorsäkerhet innebär ”false positives” att ett antivirusprogramm väljer att klassificiera en egentlig ofarlig, eller kanske till och med nödvändig, fil som ett virus. Också när vi pratar för plagieringsförebyggande ändamål så används ”false positives” som ett sätt att förklara ett specifikt fenomen.

Inom den akademiska sfären så kommer du ofta stöta på ordet akademisk integritet och att plagiering är dess ärkefiende. Om du inte citerar och använder korrekta källhänvisningar, så att ingenting av ditt skrivna arbete – oavsett om undersökningar, avhandlingar eller annat skrivet material – kan tillskrivas dig, så kommer du snabbt att bli en tagg i sidan hos många akademiker.
Med det sagt undrar du säkert vad ovanstående har att göra med ”false positives” och fenomenet jag nämnde bara några rader tidigare, inte sant?

False positives i ett plagieringskontrollerande system

”False positives” i ett plagieringskontrollerade system syftar på en text som har markerats som överensstämmande, eller åtminstone att vara likt innehållet som jämförts mot systemets databas, men som inte nödigtivs skulle ses som överensstämmande om innehållen inte vore tagna ur sitt sammanhang.

För att förtydliga vad som menas med ovanstående; nedanstående exempel visar på en överenstämmelse och den text som är fetmarkerad är överenstämmelsen:

• ”Salt och peppar” <> ”Katter och hundar” – 33%
• ”Tre män i en båt” <> ”Livet i en medeltida stad” – 40%
• ”Tom Sawyers äventyr” <> ”Sherlock Holmes äventyr” – 60%

Den text som plagieringssystemet markerar som överensstämmande är vanliga fraser och ord. Vanligt i svenska språket är ”och” samt ”i en” (i engelska språket ”and” och ”in a” och i tyska språket ”und” och ”in einer”). I många fall så är ”false positives” ord som är vanligt förekommande inom ett specifikt språk istället för komplicerade konjunktioner eller appositioner.
Men även vanligt förekommande meningar, såsom ideomatiska uttryck eller längre namn på instutioner, kan flaggas som potentiellt plagiat beroende på systemet i fråga.

Ett system kan också producera ”false negatives”. Dessa uppstår när systemet inte kan identifiera plagierat innehåll då källan exempelvis inte är digitaliserad och finns som källa på nätet (specifika böcker exempelvis), är felstavad eller att källan på ett eller annat sätt inte finns i systemet. Många fall of plagiat kan gå under radarn när materialet översätts eller tas från fler än en enda källa.

Oavsett språk så bör systemet inte flagga ord som vi skulle räkna som ”false positives”, dessa ord bör inte heller inkluderas i en analysrapport – som i sin tur avgör procentandelen av överenstämmande innehåll i en inlämnad uppgift. Ju högre procentandel, desto högre är graden av plagierat innehåll. En logisk slutsats som inte helt stämmer när systemet i fråga får för sig att hundra uppsatser inom samma ämne är någonting misstänktsamt och som kräver närmare granskning – trots att detta är ett falskt larm.

Att inkludera ”false positives” betyder att, medan procentandelen av textens övergripande likheter stiger, så minskar dess relevans.
Det svåra är dock att kalkylera relevansen av de olika ord som utgör en text och omvandla denna relevans till en siffra eller procenthalt. Hur kan du avgöra vilka ord som är relevanta och mindre relevanta? Hur kan du avgöra vad som är ofrivilligt plagierande från medvetet plagierande utifrån en siffra?

Ett systems begränsningar i förhållande till false positives

Plagieringskontrollerande system är hjälpsamma och viktiga tillägg för alla instutioner som fokuserar på kunskap och lärande, tro inte någonting annat, men de är samtidigt bara ett system som vi människor programerat – och inget system är perfekt och utan begränsningar.

Du kan spara både otroligt mycket tid med att ha ett plagieringskontrollerande system på din skola, men du kan också förlora mycket tid på att behöva felsöka och åtgärda brister i systemet om något skulle gå snett.
Du måste med andra ord ha både tålamod skulle sådana situationer uppstå, våga lita på att systemet gör sitt jobb, men inte heller bli alltför beroende av systemet och stirra dig blind på siffran som den (eller snarare analysrapporten) visar dig.

Ett problem med ”false positives” är att de kan få dig att spendera mer tid än vad som egentligen är nödvändigt på att gå igenom varje fynd för att kunna säga vad som en pålitlig träff och vad som inte är detta. Vad värre är, ett sådant sökande efter ”äkta” och ”falsk” plagiering, underminerar användandet och i värsta fall förtroendet för plagieringskontrollerande sytem helt och hållet.

Vi har sagt detta vid ett flertal tillfällen, men de kan inte upprepas nog; den största begränsningen vad gäller alla system som ska förebygga plagiering, är att systemet i sig aldrig kan säga vad som är plagiering och inte. Systemet kan endast ge dig en indikation, och siffran som analysrapporten generar är också detta ingenting annat än en indikation.

Maskininlärning: ett sätt att minska graden av false positives

System är i konstant utveckling och vår programvara är inget undantag. Precis som många andra system så använder också Ouriginal sig av så kallad maskininlärning (”Machine Learning”).

Med varje inlämnad uppgift blir systemet allt smartare och algoritmerna allt skickligare på att upptäcka och se mönster som i sin tur kommer att ge dig allt mer relevanta svar i takt med att systemets intelligens ökar. Så har vi designat vår programvara och dess träffsäkerhet både gällande fynd och relevant information är redan nu – tack vare vår enorma databas av information – otrolig.

Maskinlärning är ett sätt att minska graden av både ”false positives” och ”false negatives”, och trots att kampen är långt ifrån över så är det ett steg i rätt riktning att aldrig underskatta betydelsen av dem båda.

Du är alltid välkommen att kontakta oss för att få ännu mer information om hur Ouriginal kan reducera effekten av false positives.

Intresserad av Ouriginal?

This website uses cookies to improve the site’s overall user experience and performance. Read more here.