juin 29, 2021

L’ombre menaçante du plagiat multilingue et les défis de sa détection

Qu’est-ce que le plagiat multilingue ?

Le plagiat multilingue correspond au type de plagiat – ou d’usurpation – dans lequel le contenu de la source figure dans une langue alors que le contenu plagié est rédigé dans une autre. En d’autres termes, il s’agit de plagiat par l’intermédiaire de la traduction.

Ces dernières années, ce type de plagiat a émergé, porté par l’accès libre et simple aux ressources en ligne et les outils de traduction disponibles gratuitement. Les étudiants, et plus largement tous les utilisateurs, peuvent dès lors accéder aisément à des contenus du monde entier dans n’importe quelle langue, et les reproduire dans une autre langue, au moyen de ces outils de traduction.

Parallèlement, le plurilinguisme de plus en plus répandu a également contribué à l’accélération de ce phénomène : de nombreuses personnes plurilingues peuvent très facilement lire et rechercher dans une langue tout en écrivant dans une autre.

Les recherches menées par Chris Park (2003), Stevens and Stevens (1987), Davis et al. (1992), Love and Simmons (1998), Silverman (2002) and Straw (2002) relèvent différents facteurs pouvant conduire au plagiat, notamment l’ignorance de la notion même de plagiat, la compétitivité croissante, la mauvaise gestion du temps, les compétences rédactionnelles insuffisantes ainsi que l’absence de moyens dissuasifs.

Peut-on détecter le plagiat multilingue ?

La détection du plagiat multilingue reste un domaine peu exploré. En effet, la détection de ces cas de plagiat demeure extrêmement complexe, le texte d’origine n’étant plus dans la même langue que le texte reproduit. En outre, les solutions de détection de similitudes ou de plagiat habituelles ne sont pas capables d’identifier correctement ce type de plagiat.

Cependant, alors qu’un risque grandissant pèse sur l’intégrité universitaire, il est devenu urgent de trouver des moyens de détecter et de prévenir le plagiat par la voie de la traduction.

Les chercheurs ont mis au point différentes méthodes pour estimer si deux ensembles de textes écrits dans des langues différentes sont essentiellement des copies l’un de l’autre. Par exemple, un modèle proposé par Barron-Cedeno, basé sur la technologie de traduction automatique statistique. Un autre modèle est MLPlag (2008), proposé par Ceska. Dans cette méthode, les traductions sont comparées au niveau du document. Si des progrès ont été réalisés dans les grandes langues les plus couramment utilisées, il reste encore beaucoup à faire pour les langues moins répandues et éloignées.

Les solutions qui aident à détecter le plagiat multilingue

S’il est rassurant de constater que des progrès sont réalisés dans ce domaine, pour la plupart d’entre nous qui travaillons dans le secteur de l’éducation ou dans des professions où nous devons être en mesure de détecter le plagiat, la clé est l’accès à une solution simple et efficace, facile à utiliser et fonctionnant en un clic.

C’est exactement ce que propose Ouriginal, pionnier des solutions de comparaison de textes et de détection de similitudes. Son Cross-Language Text Matching (CLTM) permet d’identifier le contenu correspondant qui a été traduit d’une langue à une autre à l’aide d’algorithmes propriétaires. L’algorithme hautement spécialisé identifie des segments de textes dans différentes langues qui semblent être similaires. L’algorithme identifie ensuite les phrases qui contiennent ces segments pour vérifier si les phrases elles-mêmes sont des traductions les unes des autres, détectant ainsi des correspondances potentielles.

Voir l’exemple ci-dessous :