Un algoritmo de base genética puede redimir a Internet del 'spam'

Los correos basura que inundan cada día los buzones de millones de internautas a lo largo y ancho del mundo utilizan una secuencia muy similar a la del ADN, lo que ha permitido a bioinformáticos de IBM desarrollar un algoritmo de base genética capaz de identificar y aislar casi el 100% de los mensajes no deseados que inundan Internet.

El primer paso consistió en crear un algoritmo genético llamado Teiresias con la misión de recorrer las secuencias de aminoácidos y fragmentos de ADN. Teiresias descubrió así patrones y pudo aislar el funcionamiento de ciertas estructuras genéticas.

La técnica se modificó a continuación en un nuevo algoritmo llamado Chung-Kwei, tomado del nombre de un talismán feng-shui encargado de combatir los malos espíritus. La misión de este algoritmo no es perseguir secuencias orgánicas, sino identificar cadenas de caracteres que se repiten en los correos basura y proceder a su destrucción.

Durante el desarrollo de la investigación, cuyos resultados se publican en los Proceedings de la First Conference on Email and Anti-Spam, celebrada en julio pasado, Chung-Kwei analizó 66.000 correos basura previamente identificados y detectó 6 millones de patrones.

96,5% de aciertos

Al comparar estos seis millones de secuencias dañinas con los patrones existentes en correos normales, los investigadores pudieron separar las características de los dos tipos de correos. El algoritmo copiado de la biología detectó hasta el 96,5% de los correos basura.

El margen de error, que es alto en las actuales técnicas contra los correos basura, baja en este algoritmo a razón de 1 por 6.000. Su principal virtud es la capacidad de detectar incluso las argucias de los fabricantes de los correos pirata, ya que todas estas argucias han sido analizadas e identificadas por el algoritmo genético aplicado a la informática.

El algoritmo funciona considerando los correos como un conjunto de palabras y combinaciones de letras y símbolos. De esta forma, aprende de forma automática pautas propias del vocabulario del correos basura.

Al analizar dos colecciones de correos electrónicos, una basura y otra de correo bueno, crea bases de datos con las combinaciones más frecuentes en cada uno.

De esta forma, es capaz de comparar cada mensaje con estas bases de datos, estableciendo un umbral a partir del cual los que lo superen son considerados basura y señalizados así.

La peste de Internet

Aunque IBM piensa ofertar el algoritmo dentro sus programas contra los correos basura, el nuevo sistema aún tiene que pasar varias pruebas más antes de que comience a comercializarse.

El sector ha acogido con esperanza la creación de este algoritmo, ya que la invasión de correos electrónicos está provocando muchas deserciones de internautas. Newscientist incluso le augura al descubrimiento del algoritmo genético un prometedor futuro.

El correo electrónico no deseado, también llamado spam, se ha convertido en una calamidad de Internet. Según IDC, cada año se invierten en el mundo 2.200 millones de dólares en combatir a los correos no deseados, de los que se enviaron 15.000 millones en 2003. Se cree que este año los envíos no deseados alcanzarán los 35.000 millones, según Radicati Group.

El 56,78 % de los envíos no deseados enviados en 2003 procedían de Estados Unidos, según Sophos. En Europa, los internautas reciben una media de 13 correos no deseados por día, 19 los de Estados Unidos y 4 los de América del Sur, según Frank N. Magrid & Associates.