El ritmo de publicación en Twitter permite detectar cuentas robot o spam

El ritmo de publicación de tuits puede diferenciar si la controla una persona, una cuenta corporativa, o un robot. Así lo demuestra una investigación del Imperial College de Londres (Reino Unido), publicada en PloS ONE la semana pasada.

Los investigadores analizaron más de 160.000 tuits de cuentas tanto personales, como pertenecientes a grandes corporaciones, como controladas por robots. Los períodos de actividad alta o baja en Twitter y el tiempo entre tuits sucesivos permiten distinguir los tres tipos de cuentas entre sí, con aproximadamente un 83% de precisión.

Además, los investigadores también han desarrollado un método para predecir cuándo se publicará un nuevo tuit, sabiendo cuándo se publicó el último.

Como era de esperar, informa SINC, el estudio comprobó que las cuentas corporativas tuitean más durante las horas de trabajo, las cuentas personales son más activas en las tardes y noches, y las cuentas robot o bien tuiteataban a intervalos regulares durante el día, o tenían arrebatos repentinos de actividad en una o unas pocas horas específicas.

El autor principal, Aldo Faisal, concluye: «La identificación y clasificación de los tipos específicos de usuarios de Twitter pueden ser útiles para una variedad de propósitos, desde las ciencias sociales computacionales, las campañas publicitarias y las políticas, hasta el filtrado de spam, la persecución de los robos de identidad y la detección de cuentas maliciosas.»

Ventajas

La principal ventaja de este método para la detección de spam es, según los investigadores, que abarata y acelera el proceso, en comparación con otros métodos, que se basan en el análisis de contenido.

En la detección de propaganda también es más ventajoso, al no centrarse en el texto sino simplemente en los tiempos de publicación.

Uno de los métodos desarrollados para perseguir el spam en Twitter es el de Juan Martínez-Romo y su equipo, de la Universidad Nacional de Educación a Distancia (UNED).

La herramienta clasifica correctamente el 93,7% de los mensajes maliciosos y el 89,3% de los mensajes válidos. Solo el 6,3% de tuits válidos fueron clasificados erróneamente como basura en el experimento.

La investigación utiliza modelos del lenguaje para detectar el spam y no analiza perfiles de usuarios sino tuits. El método analiza también las páginas webs que se enlazan en los tuits. Por ejemplo, si un tema popular es David Bowie, y el enlace de la página web de un tuit lleva a un portal de productos farmacéuticos, ese mensaje sería clasificado como spam.

Referencia bibliográfica:

Gabriela Tavares, Aldo Faisal. Scaling-Laws of Human Broadcast Communication Enable Distinction between Human, Corporate and Robot Twitter Users. PLoS ONE.