juillet 16, 2021

Comprendre les faux positifs et pourquoi ils sont importants

Le plagiat est une menace permanente pour l’intégrité académique et la pensée authentique. Si vous ne citez pas et ne référencez pas correctement, les recherches, les articles et autres documents qui ont été écrits ne peuvent pas être attribués correctement et le monde universitaire serait très probablement englouti dans des luttes constantes pour savoir qui était l’auteur original.

Les systèmes de détection du plagiat sont donc des compléments utiles et cruciaux pour toutes les institutions qui créent de la connaissance. Ils nous aident également à gagner du temps en signalant automatiquement les cas suspects de plagiat au lieu de nous obliger à rechercher manuellement des similitudes en ligne ou ailleurs. 

Toutefois, il n’est pas toujours facile de détecter un éventuel plagiat dans un texte, un essai ou même une thèse de doctorat. Une menace courante dans la lutte contre le plagiat est de ne pas reconnaître les « faux positifs » et de sous-estimer leur importance. Mais d’abord, attachons-nous à comprendre ce que sont les faux positifs et pourquoi ils sont si importants.

Dans un système de détection du plagiat, un faux positif désigne un texte qui a été marqué comme correspondant ou similaire au contenu lorsqu’il est comparé à la base de données du système, mais qui n’est pas strictement vrai car la correspondance peut être hors contexte.

Regardez les exemples suivants dans lesquels le texte rouge marque un texte correspondant :

  • « Sel et poivre »<> « Chats et chiens » – 33 %
  • « Trois hommes dans un bateau » <> « La vie dans une ville médiévale » – 40 %
  • « Les aventures de Tom Sawyer » <>  « Les aventures de Sherlock Holmes » – 60 %

Les textes correspondants signalés par le vérificateur de plagiat sont essentiellement des phrases et des mots courants, tels que « et » ou « dans un », et ne doivent donc pas être inclus dans le rapport d’analyse, qui détermine le pourcentage global de contenu correspondant trouvé dans un travail soumis. Si l’on tient compte de ces résultats, le pourcentage de similitude globale des textes augmente, mais sa pertinence diminue. L’inclusion de ces mots courants dans les correspondances textuelles potentielles constitue ce que l’on appelle des faux positifs.

Souvent, les faux positifs sont des mots extrêmement courants dans la langue concernée, plutôt que des conjonctions et des appositions compliquées. En réalité, dès que l’on dépasse la barre des 100 % de similitude, les limites deviennent floues – car comment calculer la pertinence des différents mots qui composent un texte et la traduire en pourcentage ?

Les résultats de similitude peuvent être écrasants

Afficher tous les textes et résultats correspondants peut être source de désordre et de confusion, sans compter le risque de détourner l’attention des cas réels de plagiat. C’est un peu comme si vous tapiez sur Google la phrase « Je ne sais pas » et que vous étiez submergé de résultats. Faites l’essai. (Cela vous donnera environ 7 milliards de résultats de recherche !)

Ou pensez à la phrase « Cette page est intentionnellement laissée blanche ». Cette correspondance aurait-elle un sens dans un rapport de plagiat ? Les faux positifs vous font également perdre plus de temps que nécessaire, car vous devez passer en revue chaque résultat pour vérifier s’il s’agit d’une correspondance ou non. Ce qui est probablement pire, c’est que cela sape l’utilisation et la confiance dans les logiciels de détection du plagiat. Si vous passez un temps infini à trier les faux positifs, la frustration vous fera très probablement renoncer à vos efforts pour évaluer le niveau de plagiat réel dans le texte que vous examinez.

Comment pouvons-nous relever le défi des faux positifs ?

Les faux positifs sont une grande menace pour l’originalité et nous devons les traiter correctement. Une façon de minimiser les faux positifs est d’utiliser un logiciel de détection du plagiat comme Ouriginal, qui utilise des algorithmes d’apprentissage automatique qui s’améliorent avec le temps. Notre logiciel est conçu de telle sorte qu’il apprend en permanence à reconnaître ce qui constitue une correspondance textuelle pertinente et ce qui ne l’est pas. La technologie d’Ouriginal vous aide à prendre des décisions plus éclairées en limitant les données encombrantes et non pertinentes, améliorant ainsi la précision des résultats. 

Si vous souhaitez en savoir plus sur la manière dont Ouriginal réduit l’effet des faux positifs, n’hésitez pas à nous contacter.

This website uses cookies to improve the site’s overall user experience and performance. Read more here.