Tendencias21
Crean el primer ordenador que diferencia idiomas leyendo los labios

Crean el primer ordenador que diferencia idiomas leyendo los labios

Científicos de la Universidad de East Anglia, en el Reino Unido, han creado el primer ordenador que lee los labios y, además, es capaz de diferenciar diversas lenguas. El sistema está basado en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación. Su nivel de aciertos fue considerable. Este logro supone un importante paso adelante en la tecnología de lectura automática de los labios, y podría tener usos prácticos para personas sordas, y fuerzas de seguridad y militares. Por Yaiza Martínez.

Crean el primer ordenador que diferencia idiomas leyendo los labios

En la pasada IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009), celebrada en Taipei entre el 19 y el 24 de abril, científicos de la Universidad de East Anglia (UEA), en el Reino Unido, presentaron el primer ordenador capaz de leer los labios que, además, puede diferenciar entre diferentes lenguas.

Según explica la UEA en un comunicado, los ordenadores capaces de leer los labios están en desarrollo desde hace un tiempo, pero ésta es la primera vez que se consigue añadir a un ordenador la capacidad de diferenciar, además, en qué idioma está hablando una persona.

Del fonema al visema

Según se explica en un artículo más extenso publicado por los autores de esta investigación, dirigida por Stephen Cox, de la escuela de ciencias computacionales de la UEA, la Identificación Automática de Lenguaje Hablado (LID) es una tecnología ya madura que alcanza altos niveles de exactitud en tan sólo unos segundos de discurso interpretativo.

Esta tecnología consiste en determinar por medios computacionales el idioma de quien habla basándose sólo en una muestra de voz. Los medios aplicados en este caso van desde la caracterización de características fonéticas de diversos idiomas, al análisis de la prosodia del discurso.

Pero, a medida que el procesamiento del discurso visual se ha ido desarrollando en los últimos años, cada vez ha resultado de mayor interés encontrar recursos computacionales capaces de identificar los idiomas a partir sólo de imágenes.

Así, se prepara a los ordenadores para distinguir los “visemas”, que son la apariencia visual de la pronunciación de un fonema (los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras). Según los investigadores, las técnicas LID basadas en la teoría fonética pueden aplicarse al procesamiento de la información “visémica”.

Cómo se hizo

Los científicos de la UEA desarrollaron una tecnología para el reconocimiento de los idiomas hablados –a partir sólo de información visual- basándose en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación.

Gracias a dicho modelo estadístico, el sistema computacional pudo identificar qué idioma hablaba cada individuo en un momento dado con un nivel elevado de exactitud.

Los idiomas analizados fueron el inglés, el francés, el alemán, el árabe, el mandarín, el cantonés, el italiano, el polaco y el ruso.

En el sistema desarrollado, los datos de video fueron registrados usando un Active Appeareance Model (AAM), un “modelo de apariencia activa”. Los vectores que este proceso produjo permitieron interpretar y clasificar los rasgos físicos del discurso y, posteriormente, relacionar dichos rasgos con el idioma que se estaba hablando: la combinación del movimiento de lengua, labios y mandíbula, así como la detección y el registro de secuencias de movimiento específicas y contracciones del rostro, fue en definitiva lo que permitió al sistema identificar el idioma hablado.

Según afirma Cox, “éste ha sido un emocionante avance en la tecnología de lectura automática de los labios, y constituye además la primera confirmación empírica de algo que ya se sospechaba intuitivamente: que cuando la gente habla diversos idiomas coloca de formas diferentes la boca, en secuencias distintas”.

Así, por ejemplo, entre los hablantes en francés, se constató un uso frecuente del redondeo de los labios, y entre los hablantes en árabe se registraron más movimientos de la lengua.

Esta herramienta podría tener usos prácticos para personas sordas, pero también podría ser aprovechada por fuerzas de seguridad y militares, en entornos ruidosos o en aquéllos en los que la señal de audio no se encuentra disponible.

Antecedentes y futuro

Como hemos dicho, la técnica computacional de lectura de labios no es nueva. Uno de los antecedentes más conocidos de este nuevo sistema es el de un software (el Audio Visual Speech Recognition o AVSR) creado hace unos años por la compañía Intel, que permite a los desarrolladores informáticos crear ordenadores capaces de leer los labios del usuario.

El software de Intel surgió en un intento de resolver las deficiencias de los programas de reconocimiento de voz, afectados habitualmente por el ruido de fondo o por la mala sintonización del micrófono, y permite que los ordenadores detecten la cara de un orador y los movimientos de su boca, con el fin de que el sistema pueda sincronizar los datos obtenidos a través del vídeo con la identificación de la voz, proporcionando un reconocimiento mucho más exacto.

En definitiva, la detección de gestos y reconocimiento de idiomas son dos elementos que pueden llegar a tener una importancia muy grande en el futuro, aunque aún queda un importante hito que alcanzar: el de la traducción dinámica y casi simultánea.

Yaiza Martinez

Hacer un comentario

RSS Lo último de Tendencias21

  • ¿El próximo Einstein será un algoritmo? Nace la primera científica artificial que genera conocimiento 2 junio, 2025
    Una inteligencia artificial ha concebido, ejecutado y escrito una investigación original que ha sido aceptada en ACL 2025, uno de los foros científicos más prestigiosos del mundo. Zochi es la primera científica artificial reconocida por la élite.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Crean un "hormigón viviente" que se repara a sí mismo 2 junio, 2025
    Un equipo de investigadores ha desarrollado un tipo de concreto que puede curarse a sí mismo aprovechando el poder del liquen sintético. Mejora notablemente intentos anteriores de producir hormigón "vivo" hecho con bacterias, ya que el nuevo material logra ser completamente autosuficiente.
    Redacción T21
  • El eco cuántico del cerebro: ¿estamos entrelazados con nuestros pensamientos? 2 junio, 2025
    El entrelazamiento cuántico, la "acción fantasmal a distancia" que tanto intrigó a Einstein, podría no ser solo una rareza del microcosmos, sino que tendría un eco medible en los procesos cognitivos inconscientes mediante un aparente fenómeno “supercuántico”.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Un enorme desierto en Asia se está transformando en un vergel gracias al cambio climático 1 junio, 2025
    Los hallazgos de un nuevo estudio muestran que la ecologización del desierto de Thar ha sido impulsada principalmente por más lluvias durante las temporadas de monzones de verano, un aumento del 64% en las precipitaciones en general por el cambio climático y, en segundo lugar, por la infraestructura de riego que lleva el agua subterránea […]
    Pablo Javier Piacente / T21
  • La NASA está observando una enorme y creciente anomalía en el campo magnético de la Tierra 31 mayo, 2025
    La NASA está haciendo un seguimiento detallado de la "abolladura" o "bache" en el campo magnético terrestre descubierta en 1961, que crece rápidamente y podría ser el preludio de una inversión geomagnética: ocurre cuando los polos magnéticos norte y sur intercambian posiciones.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Los árboles pueden predecir las erupciones volcánicas 30 mayo, 2025
    La NASA, en colaboración con el Instituto Smithsonian, en Estados Unidos, está desarrollando nuevos métodos para anticipar erupciones volcánicas. Cuando el magma asciende a la superficie libera dióxido de carbono, y los árboles cercanos que absorben ese gas se vuelven más verdes y frondosos. Satélites como Landsat 8 vigilan la vegetación en zonas volcánicas, captando […]
    Pablo Javier Piacente / T21
  • Los delfines se ponen nombres "en clave" 30 mayo, 2025
    Un nuevo estudio ha identificado que los delfines no solo se dan nombres para reconocerse, sino que además estas denominaciones podrían esconder información secreta o "en clave", que estaría ligada a los sistemas sociales que sustentan el equilibrio de sus comunidades.
    Pablo Javier Piacente / T21
  • Sorprenden a una “estrella araña” devorando a su compañera 30 mayo, 2025
    Una colaboración internacional de astrónomos ha identificado un extraño sistema estelar en el que un púlsar conocido como “estrella araña” devora material de su estrella compañera, en un hallazgo que representa un eslabón perdido en la evolución de sistemas binarios compactos. 
    Redacción T21
  • Planetas a la deriva: el origen caótico de los mundos lejanos respalda la existencia del Planeta Nueve 30 mayo, 2025
    En los márgenes más remotos de los sistemas planetarios, gigantes invisibles orbitan en silencio. Un nuevo modelo sugiere que estos mundos distantes son productos inevitables del caos primordial que reina cuando las estrellas y sus planetas compiten por sobrevivir en los abarrotados viveros estelares. ¿Podría nuestro propio Sistema Solar albergar uno de estos esquivos colosos?
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Unas gafas de realidad mixta devuelven "el mundo entero" a las personas con pérdida parcial de la visión 29 mayo, 2025
    Una técnica desarrollada por oftalmólogos e informáticos canadienses devuelve la visión perdida a personas afectadas por una lesión cerebral, que han sufrido la reducción de gran parte de su campo visual. Las gafas de realidad mixta registran y "proyectan" ese sector que las personas no pueden ver con sus ojos.
    Pablo Javier Piacente / T21