sábado, 15 de octubre de 2011

Hacking Twitter

Hace unos días recibí en twitter un mensaje directo (conocidos en el argot de twitter como "DM") de una de las personas a las que sigo. El mensaje estaba escrito en inglés e incitaba a visitar una página web, referenciada a través de un URL corta. El texto era el siguiente:

I saw a real bad blog about you, you seen this?

El mensaje era falso, esta persona no me lo había enviado: le habían suplantado. He dejado en Slideshare una presentación sobre este tema, que puedes consultar a continuación, en la que quiero explicar el proceso de forma sencilla:

Cuando hablo de seguridad informática siempre digo lo mismo: a todos nos puede pasar. Se nos puede colar un virus, nos pueden captar una contraseña, podemos tener un despiste o sencillamente encontrarnos vulnerables en el sitio y momento inadecuado. No hay que enfocarse en buscar al culpable, sino a un proceso de mejora continua de nuestra seguridad personal en nuestro mundo digital.

Esto que ahora ocurre en Twitter no es más que una sencilla mutación de lo que lleva ocurriendo desde hace años a través de correo electrónico. Un cambio de ámbito, del e-mail al Twitter, hace que vuelva a ser vulnerable un sistema que está razonablemente controlado a través de antivirus, antispyware y antimalware en general. Y dentro de algún tiempo aparecerán otros sistemas que serán hackeados de la misma manera, nuevas y viejas técnicas que explotarán vulnerabilidades de Twiiter.

La gestión de la seguridad funciona, al igual que otros sistemas de gestión de la calidad, con un ciclo de Deming, un ciclo de mejora continua: plan, do, check, act o sea planificar, implementar un plan, verificar su efecto y finalmente actuar en un nuevo ciclo, según los resultados obtenidos de la fase de verificación. De la misma manera debemos tratar la gestión de nuestra seguridad digital, en un ciclo continuo implementando nuevas medidas que eliminen nuestras vulnerabilidades.

Lo ideal es ir un paso por delante de creadores de virus, gamberros digitales y crackers virtuales pero lo normal va a ser ir siempre un paso por detrás... por lo menos.

domingo, 2 de octubre de 2011

Plagio de alumnos: ¿detección o prevención?

En estas últimas semanas he recibido varias consultas sobre herramientas y técnicas para la detección de plagios de trabajos de alumnos. La primera vez que tuve contacto con programas para detectar plagio fue a principio de los 90, cursando las asignaturas de Arquitectura de los Computadores en el DATSI de la Facultad de Informática de la UPM, en Madrid. En el DATSI usaban un programa para comparar las prácticas, que ya entonces entregábamos electrónicamente, con una base de datos de prácticas entregadas otros años. Ha llovido desde entonces :-) pero lejos de ser un tema viejo y desfasado, haciendo búsquedas en internet me he dado cuenta de que la detección de plagio (plagiarism detection en inglés) es un tema que preocupa, que interesa y que todavía no está bien resuelto. Es más, es difícil de resolver por las implicaciones tecnológicas y el estado del arte de la ciencia en estos momentos.

El plagio en general también es un tema que preocupa a los blogueros. No es raro el día que aparece en portada de Menéame un artículo denunciando que algún gran medio de comunicación ha copiado información, fotografías o entradas enteras sin pedir permiso a su legítimo usuario.

Usando Google para detección del plagio

La respuesta más inmediata fue "hacer búsquedas de frases sospechosas en Google" y jugar con los operadores que Google nos permite al hacer búsquedas. Hay tres técnicas que suelo utilizar en mis búsquedas en Google:
  • Entrecomillar: si pones un texto entre comillas en el campo de búsqueda Google interpreta que quieres ese conjunto de palabras escritas en ese mismo orden. Si no entrecomillamos Google localiza páginas web en las que aparezcan las palabras y aunque seguramente le dará más importancia a los textos en los que las palabras aparezcan juntas, también aparecerán aquellos textos en los que las palabras aparezcan sin más.
  • Operador "-": Google hace búsquedas sintácticas, no semánticas. Eso implica que si una palabra tiene más de un significado no tenemos manera de decirle a Google qué signficado es el que buscamos. Una técnica es decirle que quita aquellos resultados que contengan palabras habituales del contexto del significado que no buscamos. Por ejemplo, si buscamos información sobre la EOI como "Escuela de Organización Industrial" es recomendable hacer la búsqueda escribiéndola de la siguiente manera: EOI -idiomas -idioma De esta manera quitaremos la mayoría de los resultados que Google encuentra sobre la Escuela Oficial de Idiomas, que también es reconocida por el acrónimo EOI.
  • Operador site: el operador site nos permite restringir la búsqueda a un dominio concreto. Si queremos encontrar un texto en un dominio web concreto deberemos escribir la búsqueda de la siguiente manera: site:www.ponga-aqui-su-dominio.com "ponga aquí su texto buscado".

El siguiente intento fue recordar otro operador de Google, el operador "Related", que se supone encuentra páginas relacionadas pero hice unas pruebas y los resultados fueron desalentadores, por lo que no lo recomiendo. Lo que si recomiendo seguir y ver como evoluciona es una extensión para Google Chrome que acaba de salir, precisamente llamada "Google Related". Se instala como una barra oculta en la parte inferior de la pantalla y al entrar en una página web aparece ofreciendo otras páginas relacionadas. De momento funciona principalmente en inglés y, de forma restringida en algunas páginas en otros idiomas.

Herramientas y servicios de detección del plagio más populares

Pero un profesor tiene que corregir decenas o centenas de trabajos y necesita mejores herramientas o al menos más eficientes y más automatizadas. La técnica fundamental de las herramientas de detección de plagio consiste en hacer búsquedas en internet de grupos de caracteres usando el API que Google proporciona para que terceros programas usen Google como un servicio. Si encontramos varias coincidencias en otro texto deducimos que hay posibilidad de que se trate de una copia. Otra técnica consiste en evaluar cada texto extrayendo un conjunto de características que se supone que pueden considerarse únicas, lo que se suele llamar la "huella" (del inglés fingerprint). A continuación procederemos a comparar dichas huellas. Finalmente la otra funcionalidad habitual consiste en comparar el contenido de un documento con el contenido de otro documento o grupo de documentos, encontrando las similitudes que pudieran tener.

Buscando referencias, Sergio Montoro, de La Pastilla Roja, me habló de Copyscape. Copyscape permite, con un modelo SaaS, hacer búsquedas de páginas web al estilo Google y tiene una versión de evaluación que me permitió obtener algunos buenos resultados en las pruebas que hice. La limitación de la versión gratuíta es "por sitio web" o por mes. Contabilizan las búsquedas que cualquiera podamos hacer sobre un dominio de la web y una vez sobrepasado el límite no permiten hacer más búsquedas gratuítas hasta el mes siguiente, salvo que te pases a la versión Premium.

En las escuelas de negocio la detección de plagio también puede ser un problema. Cuando estaba cursando mi MBA me enseñaron algunas webs que comercializaban las soluciones de los casos de estudio. De hecho también Enrique Dans ha tocado este tema recientemente. Enrique menciona Turnitin como la herramienta corporativa que utiliza ocasionalmente. Turnitin es parte de una suite de herramientas entre las que se encuentra Ithenticate para investigadores y publicadores y Turnitinadmissions, otro reposicionamiento del producto Turnitin para ayudar a los departamentos de Admisiones a gestionar y validar la información que reciben de los candidatos.

En Internet figuaran varios artículos en los que nombran, explican y evalúan numerosas soluciones, entre ellos "6 sitios para detectar plagiarismo", "Overview of plagiarism detection software" o  "Plagiarism detection tools". Extraigo de estos artículos las herramientas y servicios de detección de plagio más citados:

De pago:

- PlagiarismDetect: permite probarlo con un crédito limitado.
- Eve2: busca textos por internet.
- Plagscan: busca textos por internet, usa Yahoo Search.
Copyscape: permite probarla con profundidad.
Turnitin: hace búsquedas por internet y en sus bases documentales.

Gratuítos:

- PlagiarismChecker: : estilo Google, gratuíto.Busca textos y páginas web en internet.
- ArticleChecker:  estilo Google, gratuíto. Busca textos y páginas web en internet.
- Moss : especializado en búsqueda de software
- Chimpsky  gratuíto, necesita registro, compara documentos
- Plagiarism : compara documentos, universidad de Maastricht, gratuíto, necesita registro
- Wcopyfind: gratuíto, compara documentos
- Plagium : gratuíto, busca textos en internet
- Duplichecker : busca textos y documentos por internet.
- Copionic: herramienta gratuíta del Citilab de Cornellá.
Viper : existe una versión gratuita, características avanzadas de pago.

ACTUALIZACIÓN:
- PlagSpotter: existe versión gratuíta

El otro lado de la Fuerza 

Hecha la ley, hecha la trampa. También tenemos herramientas para ocultar las copias, como Synonimizer, una herramienta dedicada a la mejora de texto que puede ser usada para ofuscar textos copiados haciéndolos pasar por originales. En general lo que busca es ofuscar la huella que estos programas deducen de cada texto y construir a continuación un texto ofuscado que no tenga la misma huella.

Y luego tenemos a Turnitin, que riza el rizo. Le da la vuelta al calcetín del producto y ofrece WriteCheck, dirigida a alumnos que quieran asegurarse de que sus trabajos no van a ser mal calificados por Turnitin, que usarán sus profesores...

Finalmente otra vía complicada de detectar es la traducción. Si traduces un texto a otro idioma vas a obtener una copia difícil de ser detectada. Al menos, en este caso, hay un valor añadido: la propia traducción, aunque no por ello deja de ser un plagio.


Más allá de la detección: la prevención del plagio

La conclusión es que nos debemos desengañar: los alumnos, y cualquier persona en general, tienen los medios a su alcance para copiar textos y presentarlos como propios sin haber procedido a la comprensión e introyección de las ideas de los textos y por ende de los conceptos propios de la asignatura en cuestión.

Mi opinión es que hay que enfocarse en los procesos de gestión de la calidad del proyecto educativo y por tanto en incluir actividades que nos aseguren que se cumplen los objetivos formativos con trabajos originales. Estas actividades deben incluirse antes, durante y después de la formación y del proceso de elaboración de los trabajos de los alumnos . En definitiva, se trata de hacer "empowerment" al alumno, de darle herramientas que le hagan fácil el hacer un buen trabajo.

No son extrañas las asignaturas en las que se pueden llevar libros y apuntes a los exámenes. Normalmente son un mal amigo, si crees que por poder llevarlos hace falta estudiar menos normalmente estás perdido: no suelen ser útiles salvo para consultas puntuales. La estructura y complejidad de las preguntas y los ejercicios a desarrollar le quitan el valor añadido a los libros de consulta. De la misma manera, ante la hiperabundancia de información y de recursos que proporciona Internet se puede responder con una mezcla de metodología y estructura en las reglas de confección de trabajos junto con transparencia en el proceso de evaluación. Este puede ser un camino para lograr la prevención del plagio en los trabajos.

Opino que hay que enseñar proactivamente a los alumnos cómo dar valor añadido con un trabajo, la diferencia entre copiar y presentar elaboraciones y conclusiones propias fruto de hacer suyas las ideas que ha leído, cómo desarrollar unos objetivos, cómo destacar las ideas principales. Deben conocer metodologías y varias estructuras detalladas de los trabajos (patrones) que les sirvan de referencia a la hora de discernir si el trabajo va bien o no. Los alumnos deben saber referenciar, enlazar, citar y que hay valor añadido en la cita siempre y cuando apoye una idea propia.

De la misma manera que le pueden pasar un WriteCheck o un Synonimize también considero que es bueno que conozcan con detalle las guías de evaluación de los trabajos. Con esas guías delante se le puede pedir que se autoevalúe antes de entregar el trabajo.

Finalmente un trabajo sistemático y corporativo en la detección de plagio así como una efectiva comunicación a los alumnos de esta actividad serviría para terminar de desanimar a cualquiera que lo intente.

En definitiva, se trata por un lado de hacer lo más difícil posible el plagio y haciendo a la vez lo más fácil posible la elaboración de buenos trabajos. Ojalá estos conceptos los aprendieran en el colegio pero desengañémonos, es posible que algunos ni los hayan aprendido ni tengan costumbre de hacer el esfuerzo necesario.