Tendencias21
Crean el primer ordenador que diferencia idiomas leyendo los labios

Crean el primer ordenador que diferencia idiomas leyendo los labios

Científicos de la Universidad de East Anglia, en el Reino Unido, han creado el primer ordenador que lee los labios y, además, es capaz de diferenciar diversas lenguas. El sistema está basado en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación. Su nivel de aciertos fue considerable. Este logro supone un importante paso adelante en la tecnología de lectura automática de los labios, y podría tener usos prácticos para personas sordas, y fuerzas de seguridad y militares. Por Yaiza Martínez.

Crean el primer ordenador que diferencia idiomas leyendo los labios

En la pasada IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009), celebrada en Taipei entre el 19 y el 24 de abril, científicos de la Universidad de East Anglia (UEA), en el Reino Unido, presentaron el primer ordenador capaz de leer los labios que, además, puede diferenciar entre diferentes lenguas.

Según explica la UEA en un comunicado, los ordenadores capaces de leer los labios están en desarrollo desde hace un tiempo, pero ésta es la primera vez que se consigue añadir a un ordenador la capacidad de diferenciar, además, en qué idioma está hablando una persona.

Del fonema al visema

Según se explica en un artículo más extenso publicado por los autores de esta investigación, dirigida por Stephen Cox, de la escuela de ciencias computacionales de la UEA, la Identificación Automática de Lenguaje Hablado (LID) es una tecnología ya madura que alcanza altos niveles de exactitud en tan sólo unos segundos de discurso interpretativo.

Esta tecnología consiste en determinar por medios computacionales el idioma de quien habla basándose sólo en una muestra de voz. Los medios aplicados en este caso van desde la caracterización de características fonéticas de diversos idiomas, al análisis de la prosodia del discurso.

Pero, a medida que el procesamiento del discurso visual se ha ido desarrollando en los últimos años, cada vez ha resultado de mayor interés encontrar recursos computacionales capaces de identificar los idiomas a partir sólo de imágenes.

Así, se prepara a los ordenadores para distinguir los “visemas”, que son la apariencia visual de la pronunciación de un fonema (los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras). Según los investigadores, las técnicas LID basadas en la teoría fonética pueden aplicarse al procesamiento de la información “visémica”.

Cómo se hizo

Los científicos de la UEA desarrollaron una tecnología para el reconocimiento de los idiomas hablados –a partir sólo de información visual- basándose en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación.

Gracias a dicho modelo estadístico, el sistema computacional pudo identificar qué idioma hablaba cada individuo en un momento dado con un nivel elevado de exactitud.

Los idiomas analizados fueron el inglés, el francés, el alemán, el árabe, el mandarín, el cantonés, el italiano, el polaco y el ruso.

En el sistema desarrollado, los datos de video fueron registrados usando un Active Appeareance Model (AAM), un “modelo de apariencia activa”. Los vectores que este proceso produjo permitieron interpretar y clasificar los rasgos físicos del discurso y, posteriormente, relacionar dichos rasgos con el idioma que se estaba hablando: la combinación del movimiento de lengua, labios y mandíbula, así como la detección y el registro de secuencias de movimiento específicas y contracciones del rostro, fue en definitiva lo que permitió al sistema identificar el idioma hablado.

Según afirma Cox, “éste ha sido un emocionante avance en la tecnología de lectura automática de los labios, y constituye además la primera confirmación empírica de algo que ya se sospechaba intuitivamente: que cuando la gente habla diversos idiomas coloca de formas diferentes la boca, en secuencias distintas”.

Así, por ejemplo, entre los hablantes en francés, se constató un uso frecuente del redondeo de los labios, y entre los hablantes en árabe se registraron más movimientos de la lengua.

Esta herramienta podría tener usos prácticos para personas sordas, pero también podría ser aprovechada por fuerzas de seguridad y militares, en entornos ruidosos o en aquéllos en los que la señal de audio no se encuentra disponible.

Antecedentes y futuro

Como hemos dicho, la técnica computacional de lectura de labios no es nueva. Uno de los antecedentes más conocidos de este nuevo sistema es el de un software (el Audio Visual Speech Recognition o AVSR) creado hace unos años por la compañía Intel, que permite a los desarrolladores informáticos crear ordenadores capaces de leer los labios del usuario.

El software de Intel surgió en un intento de resolver las deficiencias de los programas de reconocimiento de voz, afectados habitualmente por el ruido de fondo o por la mala sintonización del micrófono, y permite que los ordenadores detecten la cara de un orador y los movimientos de su boca, con el fin de que el sistema pueda sincronizar los datos obtenidos a través del vídeo con la identificación de la voz, proporcionando un reconocimiento mucho más exacto.

En definitiva, la detección de gestos y reconocimiento de idiomas son dos elementos que pueden llegar a tener una importancia muy grande en el futuro, aunque aún queda un importante hito que alcanzar: el de la traducción dinámica y casi simultánea.

Yaiza Martinez

Hacer un comentario

RSS Lo último de Tendencias21

  • Ya es posible transmitir el tacto a través de Internet 26 junio, 2024
    Un nuevo estándar para la compresión y transmisión del sentido del tacto mediante Internet sienta las bases para la telecirugía, la teleconducción y nuevas experiencias de juego en línea, entre otras aplicaciones. El flamante estándar HCTI (Haptic Codecs for the Tactile Internet) es para el “tacto digital” lo que son JPEG, MP3 y MPEG para […]
    Pablo Javier Piacente
  • Las primeras muestras de la cara oculta de la Luna ya están en la Tierra 26 junio, 2024
    La cápsula de reingreso de la sonda Chang'e-6 de China, que transporta hasta dos kilogramos de materiales extraídos y perforados de la cuenca más antigua de la Luna ubicada en su lado oscuro, aterrizó este martes 25 de junio en la región de Mongolia Interior y fue rápidamente recuperada, según informó la Administración Nacional del […]
    Pablo Javier Piacente
  • La Tierra tendrá dos soles dentro de 1,3 millones de años y durante 60.000 años 26 junio, 2024
    Dentro de 1,3 millones de años, la Tierra tendrá una especie de segundo sol porque la estrella Gliese 710 se acercará a 1,1 años luz de la Tierra y la veríamos del mismo tamaño que Júpiter. Lo malo es que esa alteración cósmica puede provocar un episodio en nuestro planeta como el que acabó con […]
    Eduardo Martínez de la Fe
  • China descubre grafeno natural en la Luna 25 junio, 2024
    Investigadores chinos han descubierto recientemente grafeno natural de escasas capas por primera vez en la Luna, a partir de las muestras traídas a la Tierra por la sonda Chang'e 5. El hallazgo proporciona nuevos conocimientos sobre las actividades geológicas, la historia evolutiva y las características ambientales de la Luna.
    Pablo Javier Piacente
  • Los incendios forestales extremos se duplicaron en los últimos 20 años en todo el planeta 25 junio, 2024
    Una nueva investigación concluye que la frecuencia e intensidad de los incendios forestales extremos se ha más que duplicado en todo el mundo en las últimas dos décadas, debido al calentamiento global antropogénico y otros factores relacionados. Se trata de la primera ocasión en la cual los científicos pudieron trazar una tendencia global para los […]
    Pablo Javier Piacente
  • Detectado en el Mediterráneo el neutrino más energético del universo 25 junio, 2024
    El neutrino más potente jamás observado ha dejado su huella en las profundidades del Mediterráneo, aunque todavía se desconoce de qué rincón del universo procede. Los neutrinos cosmogénicos son los mensajeros de algunos de los eventos más cataclísmicos del cosmos.
    Eduardo Martínez de la Fe
  • La IA identifica seis formas diferentes de depresión 24 junio, 2024
    Los científicos han identificado seis formas biológicamente distintas de depresión gracias a la aplicación de la Inteligencia Artificial (IA) en estudios cerebrales. El hallazgo podría explicar por qué algunas personas no responden a los tratamientos tradicionales para la afección, como los antidepresivos y la terapia psicológica.
    Pablo Javier Piacente
  • La NASA pondrá en órbita una estrella artificial que revolucionará el estudio del Universo 24 junio, 2024
    La NASA encarará un ambicioso proyecto para colocar en órbita una estrella artificial: permitirá la calibración de telescopios a niveles previamente inalcanzables. El proyecto tiene como objetivo mejorar significativamente las mediciones de la luminosidad estelar y abordar varios otros desafíos que dificultan la astrofísica moderna.
    Pablo Javier Piacente
  • Los macacos nos enseñan cómo sobrevivir a un desastre natural 24 junio, 2024
    Los macacos de la isla caribeña de Puerto Rico se volvieron más tolerantes y menos agresivos después del huracán María, que los obligó a compartir la sombra de los árboles para sobrevivir al intenso calor.
    Redacción T21
  • Extrañas formas de vida se ocultan en antiguas cuevas de lava de Hawai 23 junio, 2024
    Científicos estadounidenses han logrado identificar una gran diversidad de especies microbianas únicas, que se han desarrollado en cuevas geotérmicas, tubos de lava y fumarolas volcánicas de la isla de Hawái. Estas estructuras subterráneas se formaron hace entre 65 y 800 años y reciben poca o ninguna luz solar, en ambientes similares a los que pueden encontrarse […]
    Pablo Javier Piacente