En estas últimas semanas he recibido varias consultas sobre herramientas y técnicas para la detección de plagios de trabajos de alumnos. La primera vez que tuve contacto con programas para detectar plagio fue a principio de los 90, cursando las asignaturas de Arquitectura de los Computadores en el
DATSI de la Facultad de Informática de la UPM, en Madrid. En el DATSI usaban un programa para comparar las prácticas, que ya entonces entregábamos electrónicamente, con una base de datos de prácticas entregadas otros años. Ha llovido desde entonces :-) pero lejos de ser un tema viejo y desfasado, haciendo búsquedas en internet me he dado cuenta de que la
detección de plagio (
plagiarism detection en inglés) es un tema que preocupa, que interesa y que todavía no está bien resuelto. Es más, es difícil de resolver por las implicaciones tecnológicas y el estado del arte de la ciencia en estos momentos.
El plagio en general también es un tema que preocupa a los blogueros. No es raro el día que aparece
en portada de Menéame un artículo denunciando que algún gran medio de comunicación ha copiado información, fotografías o entradas enteras sin pedir permiso a su legítimo usuario.
Usando Google para detección del plagio
La respuesta más inmediata fue "hacer búsquedas de frases sospechosas en Google" y jugar con los operadores que Google nos permite al hacer búsquedas. Hay tres técnicas que suelo utilizar en mis búsquedas en Google:
- Entrecomillar: si pones un texto entre comillas en el campo de búsqueda Google interpreta que quieres ese conjunto de palabras escritas en ese mismo orden. Si no entrecomillamos Google localiza páginas web en las que aparezcan las palabras y aunque seguramente le dará más importancia a los textos en los que las palabras aparezcan juntas, también aparecerán aquellos textos en los que las palabras aparezcan sin más.
- Operador "-": Google hace búsquedas sintácticas, no semánticas. Eso implica que si una palabra tiene más de un significado no tenemos manera de decirle a Google qué signficado es el que buscamos. Una técnica es decirle que quita aquellos resultados que contengan palabras habituales del contexto del significado que no buscamos. Por ejemplo, si buscamos información sobre la EOI como "Escuela de Organización Industrial" es recomendable hacer la búsqueda escribiéndola de la siguiente manera: EOI -idiomas -idioma . De esta manera quitaremos la mayoría de los resultados que Google encuentra sobre la Escuela Oficial de Idiomas, que también es reconocida por el acrónimo EOI.
- Operador site: el operador site nos permite restringir la búsqueda a un dominio concreto. Si queremos encontrar un texto en un dominio web concreto deberemos escribir la búsqueda de la siguiente manera: site:www.ponga-aqui-su-dominio.com "ponga aquí su texto buscado".
El siguiente intento fue recordar otro operador de Google, el operador "Related", que se supone encuentra páginas relacionadas pero hice unas pruebas y los resultados fueron desalentadores, por lo que no lo recomiendo. Lo que si recomiendo seguir y ver como evoluciona es
una extensión para Google Chrome que acaba de salir, precisamente llamada "Google Related". Se instala como una barra oculta en la parte inferior de la pantalla y al entrar en una página web aparece ofreciendo otras páginas relacionadas. De momento funciona principalmente en inglés y, de forma restringida en algunas páginas en otros idiomas.
Herramientas y servicios de detección del plagio más populares
Pero un profesor tiene que corregir decenas o centenas de trabajos y necesita mejores herramientas o al menos más eficientes y más automatizadas. La técnica fundamental de las herramientas de detección de plagio consiste en
hacer búsquedas en internet de grupos de caracteres usando el API que Google proporciona para que terceros programas usen Google como un servicio. Si encontramos varias coincidencias en otro texto deducimos que hay posibilidad de que se trate de una copia. Otra técnica consiste en
evaluar cada texto extrayendo un conjunto de características que se supone que pueden considerarse únicas, lo que se suele llamar la "huella" (del inglés
fingerprint). A continuación procederemos a comparar dichas huellas. Finalmente la otra funcionalidad habitual consiste
en comparar el contenido de un documento con el contenido de otro documento o grupo de documentos, encontrando las similitudes que pudieran tener.
Buscando referencias,
Sergio Montoro, de La Pastilla Roja, me habló de
Copyscape. Copyscape permite, con un modelo SaaS, hacer búsquedas de páginas web al estilo Google y tiene una versión de evaluación que me permitió obtener algunos buenos resultados en las pruebas que hice. La limitación de la versión gratuíta es "por sitio web" o por mes. Contabilizan las búsquedas que cualquiera podamos hacer sobre un dominio de la web y una vez sobrepasado el límite no permiten hacer más búsquedas gratuítas hasta el mes siguiente, salvo que te pases a
la versión Premium.
En las escuelas de negocio la detección de plagio también puede ser un problema. Cuando estaba cursando mi MBA me enseñaron algunas webs que comercializaban las soluciones de los casos de estudio. De hecho
también Enrique Dans ha tocado este tema recientemente. Enrique menciona
Turnitin como la herramienta corporativa que utiliza ocasionalmente. Turnitin es parte de una suite de herramientas entre las que se encuentra
Ithenticate para investigadores y publicadores y
Turnitinadmissions, otro reposicionamiento del producto Turnitin para ayudar a los departamentos de Admisiones a gestionar y validar la información que reciben de los candidatos.
En Internet figuaran varios artículos en los que nombran, explican y evalúan numerosas soluciones, entre ellos
"6 sitios para detectar plagiarismo", "
Overview of plagiarism detection software" o "
Plagiarism detection tools". Extraigo de estos artículos las
herramientas y servicios de detección de plagio más citados:
De pago:
-
PlagiarismDetect: permite probarlo con un crédito limitado.
-
Eve2: busca textos por internet.
-
Plagscan: busca textos por internet, usa Yahoo Search.
-
Copyscape: permite probarla con profundidad.
-
Turnitin: hace búsquedas por internet y en sus bases documentales.
Gratuítos:
-
PlagiarismChecker: : estilo Google, gratuíto.Busca textos y páginas web en internet.
-
ArticleChecker: estilo Google, gratuíto. Busca textos y páginas web en internet.
-
Moss : especializado en búsqueda de software
-
Chimpsky gratuíto, necesita registro, compara documentos
-
Plagiarism : compara documentos, universidad de Maastricht, gratuíto, necesita registro
-
Wcopyfind: gratuíto, compara documentos
-
Plagium : gratuíto, busca textos en internet
-
Duplichecker : busca textos y documentos por internet.
-
Copionic: herramienta gratuíta del Citilab de Cornellá.
-
Viper : existe una versión gratuita, características avanzadas de pago.
ACTUALIZACIÓN:
-
PlagSpotter: existe versión gratuíta
El otro lado de la Fuerza
Hecha la ley, hecha la trampa. También tenemos herramientas para ocultar las copias, como
Synonimizer, una herramienta dedicada a la mejora de texto que puede ser usada para ofuscar textos copiados haciéndolos pasar por originales. En general lo que busca es ofuscar la huella que estos programas deducen de cada texto y construir a continuación un texto ofuscado que no tenga la misma huella.
Y luego tenemos a Turnitin, que riza el rizo. Le da la vuelta al calcetín del producto y ofrece
WriteCheck, dirigida a alumnos que quieran asegurarse de que sus trabajos no van a ser mal calificados por Turnitin, que usarán sus profesores...
Finalmente otra vía complicada de detectar es la traducción. Si traduces un texto a otro idioma vas a obtener una copia difícil de ser detectada. Al menos, en este caso, hay un valor añadido: la propia traducción, aunque no por ello deja de ser un plagio.
Más allá de la detección: la prevención del plagio
La conclusión es que nos debemos desengañar: l
os alumnos, y cualquier persona en general,
tienen los medios a su alcance para copiar textos y presentarlos como propios sin haber procedido a la comprensión e introyección de las ideas de los textos y por ende de los conceptos propios de la asignatura en cuestión.
Mi opinión es que hay que enfocarse en los
procesos de gestión de la calidad del proyecto educativo y por tanto en incluir actividades que nos aseguren que se cumplen los objetivos formativos con trabajos originales. Estas actividades deben incluirse antes, durante y después de la formación y del proceso de elaboración de los trabajos de los alumnos . En definitiva, se trata de hacer "empowerment" al alumno, de darle herramientas que le hagan fácil el hacer un buen trabajo.
No son extrañas las asignaturas en las que se pueden llevar libros y apuntes a los exámenes. Normalmente son un mal amigo, si crees que por poder llevarlos hace falta estudiar menos normalmente estás perdido: no suelen ser útiles salvo para consultas puntuales. La estructura y complejidad de las preguntas y los ejercicios a desarrollar le quitan el valor añadido a los libros de consulta. De la misma manera, ante la hiperabundancia de información y de recursos que proporciona Internet se puede responder con una mezcla de
metodología y estructura en las reglas de confección de trabajos junto con transparencia en el proceso de evaluación. Este puede ser un camino para lograr la prevención del plagio en los trabajos.
Opino que hay que
enseñar proactivamente a los alumnos cómo dar valor añadido con un trabajo, la diferencia entre copiar y presentar elaboraciones y conclusiones propias fruto de hacer suyas las ideas que ha leído, cómo desarrollar unos objetivos, cómo destacar las ideas principales.
Deben conocer metodologías y varias estructuras detalladas de los trabajos (patrones) que les sirvan de referencia a la hora de discernir si el trabajo va bien o no. Los alumnos deben saber referenciar, enlazar, citar y que hay valor añadido en la cita siempre y cuando apoye una idea propia.
De la misma manera que le pueden pasar un WriteCheck o un Synonimize también considero que
es bueno que conozcan con detalle las guías de evaluación de los trabajos. Con esas guías delante se le puede pedir que se autoevalúe antes de entregar el trabajo.
Finalmente un trabajo sistemático y corporativo en la detección de plagio así como una efectiva comunicación a los alumnos de esta actividad serviría para terminar de desanimar a cualquiera que lo intente.
En definitiva, se trata por un lado de
hacer lo más difícil posible el plagio y haciendo a la vez lo más fácil posible la elaboración de buenos trabajos. Ojalá estos conceptos los aprendieran en el colegio pero desengañémonos, es posible que algunos ni los hayan aprendido ni tengan costumbre de hacer el esfuerzo necesario.