Una herramienta automática frena el vandalismo en Wikipedia

Cada vez hay más personas que utilizan varias identidades falsas para escribir textos en la Wikipedia. Las reglas de esta enciclopedia colaborativa estipulan que cada persona puede tener sólo una cuenta, pero la realidad es que Wikipedia no utiliza medios técnicos para que la regla se cumpla.

Estas identidades se pueden utilizar tanto para escribir a favor de una empresa determinada, a cambio de dinero, como para saltarse un bloqueo (en el caso de que la persona haya sido bloqueada por los administradores por vandalismo o mal uso de la Wikipedia); como para crear una opinión mayoritaria fraudulenta sobre algún tema polémico en general, o en el contexto de la edición de Wikipedia.

Actualmente, el proceso para la detección de estas identidades falsas es manual y depende de la experiencia de los administradores, es decir, de que sepan detectar estilos similares de escritura entre varios usuarios aparentemente distintos.

El proceso se complica porque los textos de la Wikipedia suelen ser demasiado cortos como para observar un estilo determinado. Así que la única manera de detectarlas es acceder a las direcciones IP de los usuarios, a las que solo tienen acceso unos pocos administradores, lo que además viola la privacidad de la que presume la propia web.

Llega una solución

Ahora, investigadores de la Universidad de Alabama en Birmingham (EE.UU.) han desarrollado una herramienta automática, que utiliza una base de datos de identidades falsas y los textos escritos por ellas, procedente de investigaciones anteriores realizadas por los administradores de Wikipedia, y que es capaz de detectar a los farsantes sin violar su privacidad.

En un artículo publicado en arxiv.org, Thamar Solorio, Ragib Hasan y Mainul Mizan explican que su herramienta también podrá aplicarse en otros problemas de atribución de autoría de textos cortos, como en la identificación de terroristas en foros web, mensajes de teléfono, tuits y otros ámbitos donde las comunicaciones suelen ser muy breves.

Los investigadores recolectaron datos de 700 investigaciones sobre identidades falsas realizadas por administradores de la Wikipedia. En un ejemplo que citan en su artículo, muestran las similitudes estilísticas de las distintas identidades uno de los autores fraudulentos: no deja un espacio después de cada punto y seguido, sino que empieza directamente con la siguiente frase.

Con este material elaboraron un algoritmo que analiza unas 230 características de escritura, y que logra determinar qué cuentas son falsas con una tasa de acierto, es decir, de concordancia con la decisión de los administradores de la Wikipedia, del 75%.

Mor Naamán, de la universidad Cornell Tech en Nueva York, declara en New Scientist que le gusta el trabajo, y que aún hay mucho margen para mejorar, puesto que el algoritmo utiliza sobre todo rasgos sintácticos y muy pocos marcadores lingüísticos de otro tipo.

En un post reciente publicado en el blog de la Fundación Wikimedia, a la que pertenece la Wikipedia, su directora ejecutiva, Sue Gardner, explica que han bloqueado más de 250 cuentas de usuario por este problema. En el texto, Gardner es especialmente crítica con las empresas que pagan o que encargan a gente escribir artículos o comentarios favorables a ellas en la enciclopedia online por excelencia.

Referencia bibliográfica:

Thamar Solorio, Ragib Hasan, Mainul Mizan: Sockpuppet Detection in Wikipedia: A Corpus of Real-World Deceptive Writing for Linking Identities. arXiv:1310.6772.