Tendencias21
Crean el primer ordenador que diferencia idiomas leyendo los labios

Crean el primer ordenador que diferencia idiomas leyendo los labios

Científicos de la Universidad de East Anglia, en el Reino Unido, han creado el primer ordenador que lee los labios y, además, es capaz de diferenciar diversas lenguas. El sistema está basado en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación. Su nivel de aciertos fue considerable. Este logro supone un importante paso adelante en la tecnología de lectura automática de los labios, y podría tener usos prácticos para personas sordas, y fuerzas de seguridad y militares. Por Yaiza Martínez.

Crean el primer ordenador que diferencia idiomas leyendo los labios

En la pasada IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009), celebrada en Taipei entre el 19 y el 24 de abril, científicos de la Universidad de East Anglia (UEA), en el Reino Unido, presentaron el primer ordenador capaz de leer los labios que, además, puede diferenciar entre diferentes lenguas.

Según explica la UEA en un comunicado, los ordenadores capaces de leer los labios están en desarrollo desde hace un tiempo, pero ésta es la primera vez que se consigue añadir a un ordenador la capacidad de diferenciar, además, en qué idioma está hablando una persona.

Del fonema al visema

Según se explica en un artículo más extenso publicado por los autores de esta investigación, dirigida por Stephen Cox, de la escuela de ciencias computacionales de la UEA, la Identificación Automática de Lenguaje Hablado (LID) es una tecnología ya madura que alcanza altos niveles de exactitud en tan sólo unos segundos de discurso interpretativo.

Esta tecnología consiste en determinar por medios computacionales el idioma de quien habla basándose sólo en una muestra de voz. Los medios aplicados en este caso van desde la caracterización de características fonéticas de diversos idiomas, al análisis de la prosodia del discurso.

Pero, a medida que el procesamiento del discurso visual se ha ido desarrollando en los últimos años, cada vez ha resultado de mayor interés encontrar recursos computacionales capaces de identificar los idiomas a partir sólo de imágenes.

Así, se prepara a los ordenadores para distinguir los “visemas”, que son la apariencia visual de la pronunciación de un fonema (los fonemas son las unidades sonoras mínimas de las que están compuestas las palabras). Según los investigadores, las técnicas LID basadas en la teoría fonética pueden aplicarse al procesamiento de la información “visémica”.

Cómo se hizo

Los científicos de la UEA desarrollaron una tecnología para el reconocimiento de los idiomas hablados –a partir sólo de información visual- basándose en un modelo estadístico de los movimientos de los labios realizados por un total de 23 hablantes bilingües y trilingües que participaron en la investigación.

Gracias a dicho modelo estadístico, el sistema computacional pudo identificar qué idioma hablaba cada individuo en un momento dado con un nivel elevado de exactitud.

Los idiomas analizados fueron el inglés, el francés, el alemán, el árabe, el mandarín, el cantonés, el italiano, el polaco y el ruso.

En el sistema desarrollado, los datos de video fueron registrados usando un Active Appeareance Model (AAM), un “modelo de apariencia activa”. Los vectores que este proceso produjo permitieron interpretar y clasificar los rasgos físicos del discurso y, posteriormente, relacionar dichos rasgos con el idioma que se estaba hablando: la combinación del movimiento de lengua, labios y mandíbula, así como la detección y el registro de secuencias de movimiento específicas y contracciones del rostro, fue en definitiva lo que permitió al sistema identificar el idioma hablado.

Según afirma Cox, “éste ha sido un emocionante avance en la tecnología de lectura automática de los labios, y constituye además la primera confirmación empírica de algo que ya se sospechaba intuitivamente: que cuando la gente habla diversos idiomas coloca de formas diferentes la boca, en secuencias distintas”.

Así, por ejemplo, entre los hablantes en francés, se constató un uso frecuente del redondeo de los labios, y entre los hablantes en árabe se registraron más movimientos de la lengua.

Esta herramienta podría tener usos prácticos para personas sordas, pero también podría ser aprovechada por fuerzas de seguridad y militares, en entornos ruidosos o en aquéllos en los que la señal de audio no se encuentra disponible.

Antecedentes y futuro

Como hemos dicho, la técnica computacional de lectura de labios no es nueva. Uno de los antecedentes más conocidos de este nuevo sistema es el de un software (el Audio Visual Speech Recognition o AVSR) creado hace unos años por la compañía Intel, que permite a los desarrolladores informáticos crear ordenadores capaces de leer los labios del usuario.

El software de Intel surgió en un intento de resolver las deficiencias de los programas de reconocimiento de voz, afectados habitualmente por el ruido de fondo o por la mala sintonización del micrófono, y permite que los ordenadores detecten la cara de un orador y los movimientos de su boca, con el fin de que el sistema pueda sincronizar los datos obtenidos a través del vídeo con la identificación de la voz, proporcionando un reconocimiento mucho más exacto.

En definitiva, la detección de gestos y reconocimiento de idiomas son dos elementos que pueden llegar a tener una importancia muy grande en el futuro, aunque aún queda un importante hito que alcanzar: el de la traducción dinámica y casi simultánea.

Yaiza Martinez

Hacer un comentario

RSS Lo último de Tendencias21

  • Descubren que la base del lenguaje humano se desarrolló hace 135.000 años 20 marzo, 2025
    Los humanos hablamos más de 7.000 idiomas en la actualidad, muy diferentes entre ellos: sin embargo, un nuevo estudio ha descubierto que todas estas variantes idiomáticas provienen de un solo árbol genealógico lingüístico, que surgió antes de que nuestra especie se dividiera en poblaciones distintas hace 135.000 años. Solo 35.000 años después, el lenguaje habría […]
    Pablo Javier Piacente / T21
  • Nace el primer periódico creado íntegramente por la Inteligencia Artificial 20 marzo, 2025
    Por primera vez en la historia, un periódico italiano ha publicado una edición especial en la que cada palabra, titular y cita han sido generados exclusivamente por IA. Así nace Il Foglio AI, un proyecto que promete revolucionar la forma en que concebimos las noticias.
    Redacción T21
  • Google habría impulsado una IA experimental involucrada en la muerte de un adolescente 20 marzo, 2025
    Plataformas respaldadas por gigantes tecnológicos como Google han introducido chatbots de IA interactivos dirigidos a niños y adolescentes, abriendo fuertes debates sobre su impacto en el desarrollo infantil. En concreto, la aplicación experimental Character.AI ha sido objeto de demandas legales por parte de distintas familias, que alegan que sus hijos fueron expuestos a contenidos perjudiciales […]
    Pablo Javier Piacente / T21
  • Sudáfrica y China logran una conexión cuántica satelital récord de casi 13.000 kilómetros 20 marzo, 2025
    Un equipo internacional de científicos ha establecido una conexión satelital cuántica histórica entre Sudáfrica y China, cubriendo una distancia récord de 12.900 kilómetros. Gracias al fenómeno del entrelazamiento cuántico, esta tecnología garantiza comunicaciones absolutamente seguras frente a cualquier intento de espionaje.
    Redacción T21
  • Los tribunales no reconocen derechos de autor a la Inteligencia Artificial 20 marzo, 2025
    Un tribunal de apelaciones en Estados Unidos ha puesto límites a la creatividad de las máquinas: las obras generadas exclusivamente por inteligencia artificial no pueden ser protegidas por derechos de autor. El fallo reafirma que la ley actual requiere la participación humana para garantizar la protección legal de una obra.
    Redacción T21
  • Desvelan la primera luz que encendió el Universo 20 marzo, 2025
    El Telescopio de Cosmología de Atacama (ACT) ha compilado el mapa más detallado que hemos visto hasta hoy del fondo cósmico de microondas, la tenue luz que impregna el Universo desde solo 380.000 años después del Big Bang y cuyos ecos pueden apreciarse en la actualidad. La imagen obtenida es lo más parecido a la […]
    Redacción T21
  • Microsoft e Inait revolucionan la Inteligencia Artificial con cerebros digitales casi humanos 20 marzo, 2025
    Microsoft ha unido fuerzas con la startup suiza Inait para desarrollar sistemas de IA inspirados en el cerebro humano. Esta colaboración busca crear modelos que no solo aprenden de datos, sino que también razonan como el cerebro humano.
    Redacción T21
  • Una prueba de consciencia corporal desafía las visiones tradicionales sobre la cognición animal 19 marzo, 2025
    Los gorilas pueden ser tan conscientes de sí mismos como los chimpancés, según ha comprobado una nueva investigación: luego de realizar una prueba de autoconsciencia corporal bajo parámetros diferentes a las tradicionales, los científicos verificaron que las capacidades cognitivas de estos simios se habían menospreciado hasta hoy.
    Pablo Javier Piacente / T21
  • China plantea la necesidad de etiquetar el contenido generado con IA 19 marzo, 2025
    En colaboración con varios ministerios gubernamentales, la Administración China de Control del Ciberespacio (CAC) ha anunciado que todo el contenido generado por IA en Internet tendrá que ser etiquetado como tal. Sería la forma a través de la cual el gigante asiático se acopla a la idea europea de establecer algún tipo de regulación sobre […]
    Pablo Javier Piacente / T21
  • Escándalo: Elon Musk implanta en la Casa Blanca su servicio de internet satelital Starlink 19 marzo, 2025
    Starlink ha instalado en la Casa Blanca un servicio de Internet satelital paralelo al sistema oficial de telecomunicaciones que suscita dudas sobre su legalidad, abre brechas de seguridad en las comunicaciones secretas y aventaja a las empresas de Elon Musk en el acceso a proyectos oficiales. Polémica.
    EDUARDO MARTÍNEZ DE LA FE/T21