Crean ordenadores que “aprenden” a organizar fotos con criterios semánticos

Investigadores de la Penn State University han conseguido enseñar a los ordenadores a interpretar imágenes utilizando un vocabulario de más de 330 palabras en inglés, de manera que puedan describir una fotografía cualquiera con varios términos y archivarla con criterios lógicos.

Según un comunicado de dicha universidad, este nuevo sistema puede identificar colecciones completas de fotografías on-line cuando son archivadas, lo que supone un gran ahorro de tiempo para los millones de usuarios de Internet que etiquetan a mano las imágenes que guardan en sus ordenadores. Asimismo, este sistema puede facilitar la búsqueda de fotografías con la utilización de palabras clave.

El sistema ha sido desarrollado por James Wang, profesor asociado del College of Information Sciences and Technology de la Penn State University, que se dedica al estudio de la recuperación semántico-sensitiva de imágenes, a la seguridad de los archivos gráficos y al desarrollo de sistemas de catalogación de fotografías con índices lingüísticos aprendidos, entre otras actividades de investigación.

El sistema, descrito en el artículo Real-Time Computerized Annotation of Pictures por Wang y su colaboradora Jia Li, del departamento de estadística de la misma universidad, aspira a resolver el problema de la catalogación automática de las imágenes digitales.

Según ambos autores, desarrollar la capacidad de los ordenadores para realizar este trabajo puede tener múltiples aplicaciones, como la búsqueda de imágenes en la Web, en los sites de álbumes de fotos emulando a un motor de búsqueda, e incluso para facilitar la realización de experimentos científicos. Asimismo, podría servir para catalogar colecciones de arte, imágenes de satélite o fotos de enfermedades concretas.

Avanzados modelos estadísticos

Con la sistematización de avanzados modelos estadísticos y la optimización de las técnicas, los investigadores han conseguido enseñar a los ordenadores cientos de conceptos semánticos a partir de imágenes que ejemplifican cada uno de dichos conceptos.

Así ha surgido el sistema ALIPR (Automatic Linguistic Indexing of Pictures-Real Time), completamente automático. De manera rápida, este sistema puede catalogar imágenes on-line en tiempo real. Las pruebas que se han realizado en sitios de imágenes en Internet han demostrado que permite catalogarlas con una precisión óptima.

La mayoría de los buscadores actuales se basan en etiquetados textuales para describir imágenes, pero no todos los conjuntos de texto se anotan. Como resultado, las imágenes que no se catalogan no pueden ser encontradas por los buscadores web, al mismo tiempo que muchas descripciones textuales son confusas respecto a la imagen archivada. Esta herramienta automática puede en cambio presentar muchas más imágenes y con mucha más precisión respecto a criterios de búsqueda.

Analizando los píxeles

ALIPR funciona analizando los píxeles (puntos de una imagen gráfica) de las imágenes y comparándolos con los datos que el ordenador tiene almacenados en una base de datos pertenecientes a decenas de miles de imágenes de referencia. El ordenador sugiere a partir de dicho archivo 15 posibles palabras para catalogar la nueva imagen.

Gracias a la introducción de estas decenas de miles de imágenes, los ordenadores han aprendido a reconocer ciertos objetos y conceptos, que automáticamente atribuyen a las nuevas imágenes que jamás han “visto”.

Los científicos han conseguido de esta forma que, en el 98% de las imágenes analizadas, el sistema genere al menos una anotación correcta de las 15 palabras seleccionadas. Estas anotaciones las hace el sistema en una media de un 1,4 segundos.

El sistema presenta, sin embargo, dificultades en el reconocimiento de fotos borrosas o de bajo contraste o baja resolución, cuando los objetos se ven sólo parcialmente o cuando el ángulo de la fotografía presenta un objeto registrado en el archivo del ordenador, pero desde cualquier otro ángulo. Para tratar de resolver estos problemas, los investigadores introducirán cada vez más imágenes en la base de datos, lo que ampliará las posibilidades de reconocimiento.

Trabajos futuros

Teniendo en cuenta que las imágenes son el principal medio de expresión en Internet, habría por tanto que asegurar la búsqueda sencilla y efectiva en toda la cantidad de información gráfica que hay en la Red, que crece continuamente. La catalogación automática y en tiempo real se hace por eso cada vez más necesaria, aseguran los investigadores.

Los próximos pasos para mejorar el sistema ALIPR y su exactitud comprenderán la incorporación de información tridimensional en los procesos de aprendizaje informático, lo que mejorará el funcionamiento del sistema. Asimismo, se aumentará y mejorará la cantidad de imágenes de archivo que suministran los conceptos semánticos que sirven para reconocer nuevas imágenes.

Respecto a las aplicaciones, el sistema ALIPR comenzará a probarse en ciertos dominios, como la biomedicina. También podría ser integrado en otros sistemas de recuperación de datos para mejorar su propia eficacia. El desarrollo de ALIPR ha sido subvencionado por la National Science Foundation.