junio 29, 2021

Lingüística computacional para descubrir escritores fantasma y engaños en los contratos y sus limitaciones

Llevamos a cabo un experimento con un corpus de textos escritos por estudiantes recopilado de un grupo de estudiantes de fuera de los Estados Unidos y del Reino Unido, todos ellos pertenecientes a la misma clase. Los trabajos seleccionados eran trabajos de respuesta a la misma indicación dada. En este conjunto de documentos, introdujimos a continuación un documento redactado de manera profesional por el escritor fantasma «R» siguiendo la misma indicación que los estudiantes. R también recibió los mismos artículos académicos para leer antes de escribir el trabajo de respuesta y las mismas especificaciones de escritura que los otros estudiantes. A continuación, subimos los trabajos de los estudiantes y el documento escrito por R a Ouriginal para analizarlos con la función Metrics. 

Reconocer a una escritora fantasma a través de la lingüística computacional

Según los debates teóricos previos y los resultados experimentales en estilometría, la interferencia de género y de tema puede dificultar la diferenciación entre autores. Esto se debe a que el uso compartido de palabras y frases que acompañan a los escritos sobre el mismo tema, así como las convenciones de escritura de determinados géneros, dificultan la identificación de una marca autoral distintiva que pueda utilizarse para la verificación del autor. En nuestro experimento observamos que R presentaba un valor atípico alto en prácticamente todas las medidas que contempla Metrics de Ouriginal.

Dado que controlamos el tema y el género, observamos que lo que variaba en este experimento era la formación y la socialización del escritor fantasma profesional. Cuando se eliminó la tarea de R del conjunto de documentos de los estudiantes y se volvió a ejecutar Metrics de Ouriginal, ningún envío de los estudiantes se marcó en rojo. 

La originalidad léxica como una de las medidas que respaldan la hipótesis de similitud del grupo de pares

Para ejemplificar el sistema, examinaremos una medida de Metrics de Ouriginal: La originalidad léxica compara el número de palabras únicas de un documento con otros documentos que se cargan en Ouriginal y se seleccionan para su comparación. Teniendo en cuenta la «hipótesis de la similitud en los grupos de pares» que se ha debatido en la primera parte de esta serie de blogs sobre la detección de engaños en los contratos y de escritores fantasma, esperábamos que un grupo de  estudiantes que estuviera en la misma clase, contara con los mismos materiales educativos y escribiera sobre el mismo tema presentara una escasa diferencia en cuanto a la originalidad léxica.

Si no se introducía un documento redactado por un escritor fantasma en el conjunto, esto es efectivamente lo que observamos. Al incluir tal documento en el experimento, nos dimos cuenta de que R utilizaba un lenguaje muy diferente para expresar sus pensamientos. A pesar de que R recibió los mismos recursos, la dicción delata que es bastante prodigioso o no es un par académico de los otros estudiantes. Por supuesto, esta medida por sí sola no es suficiente, por lo que Metrics de Ouriginal realiza un análisis conjunto. Al hacerlo, observamos que la escritura de R era completamente diferente a la de los demás estudiantes desde el punto de vista cuantitativo, lo que generó una señal de advertencia en Metrics de Ouriginal y conllevó a una inspección más profunda. 

Las limitaciones de la hipótesis: bilingüismo, factores socioeconómicos y clases menos homogéneas

Hemos realizado experimentos similares que arrojaron resultados comparables y esta investigación en Ouriginal apoya la hipótesis de la similitud en los grupos de pares. No obstante, somos plenamente conscientes de que otros experimentos que tengan en cuenta una educación diversa desde el punto de vista lingüístico (clases multiculturales) pueden perfeccionar o refutar nuestra hipótesis. Por ejemplo: pueden existir diferencias culturales o socioeconómicas dentro del aula que influyan en el rendimiento de los alumnos en diversos parámetros. Dejando a un lado las puntuaciones en los parámetros lingüísticos, estas diferencias sociales en el aula incitan a adoptar nuevos enfoques pedagógicos que respondan al reconocimiento de que las aulas son cada vez menos homogéneas.

Las aulas multiculturales ya desafían las pedagogías sobre cómo educar eficazmente a los estudiantes en cuanto a los efectos negativos del plagio. Estos cambios incluyen la exigencia de que los instructores sean conscientes de los diversos contextos presentes en el aula y los incorporen a la experiencia de aprendizaje. Sin duda, la perspectiva multicultural es el futuro de la educación, algo que Ouriginal apoya como defensor de la integridad académica y líder de pensamiento en tecnología educativa.

¡Nos encantaría conocer tu opinión sobre la identificación de escritores fantasma mediante la lingüística computacional y nuestro software! Debate los temas con nosotros en Twitter.

En caso de que te hayas perdido la primera parte, encuéntrala aquí: Detección de la escritura fantasma y análisis del estilo de escritura: Aspectos básicos – Ouriginal

Leer más blogs:

This website uses cookies to improve the site’s overall user experience and performance. Read more here.