Tendencias21

Una nueva tecnología permite trasladar las expresiones de una cara a otra

Investigadores estadounidenses y alemanes han creado un método para transferir en tiempo real expresiones faciales grabadas en vídeo. La novedad del estudio radica en la posibilidad de trasladar esas expresiones de un rostro a otro de forma tan realista, que resulta indistinguible del vídeo real. Para lograrlo basta con un ordenador, dos cámaras especiales de captura de movimiento del cuerpo en 3D y el software que han creado, que registra cada píxel de ambas caras para después reconstruir la expresión. El sistema podría ser de utilidad en el campo de la realidad virtual y la traducción instantánea. Por Patricia Pérez

Una nueva tecnología permite trasladar las expresiones de una cara a otra

El sector de los gráficos por ordenador está cada vez más desarrollado, con avatares basados en personas reales, o incluso personajes animados de lo más realista creados completamente en un entorno sintético con las más avanzadas gráficas 3D de la industria. Sin embargo, lo que plantea un equipo de informáticos de Estados Unidos y Alemania es utilizar esa tecnología para transferir instantáneamente expresiones faciales de un rostro real a otro.

Matthias Niessner, profesor de la Universidad de Stanford especializado en superficies tridimensionales de gráficos por ordenador, se refiere al proceso como «reconstrucción facial en vivo», en un artículo publicado en The New York Times. Junto a otros compañeros de la universidad californiana y de las alemanas Max Planck Institute for Informatics y Erlangen-Nuremberg, donde estudió, han desarrollado un software que registra cada píxel de ambas caras y después transfiere la expresión.

De esta forma, la sonrisa de una persona aparece sin problema en un vídeo en directo de la cara de otra persona, aunque esta segunda no sonría. Bastará con un ordenador, dos cámaras especiales de captura de movimiento del cuerpo en 3D y el software que han creado, para tomar el control de una cara. Los resultados de la investigación se han publicado en un documento bajo el título “Transferencia de expresión en tiempo real para la reconstrucción facial” y ese el precisamente el objetivo, aunque el resultado impresiona más que la descripción.

La tecnología allana el camino a nuevas aplicaciones en el contexto de la realidad virtual y la teleconferencia. Así, se podría aplicar para mejorar el doblaje de películas -ajustando los movimientos faciales y la boca de los actores al idioma en cuestión-, hacer más realistas los vídeos de realidad virtual, crear avatares fotorrealistas para infinidad de usos o proporcionar una traducción instantánea.

Procedimiento

En los últimos años se han realizado varios estudios enfocados a la transferencia de expresiones faciales capturadas de un sujeto real para animar un personaje virtual. Sin embargo, la reconstrucción facial va un paso más allá, al trasladar las expresiones de origen a otro actor verdadero. Se trata de una tarea mucho más difícil, pues el más mínimo error en las expresiones transferidas o en la apariencia del vídeo sería percibido por el ojo humano.

Para lograr este objetivo, el software tiene que resolver desafiantes problemas algorítmicos bajo las restricciones del tiempo real. El primer paso es capturar con precisión las actuaciones faciales de los sujetos de origen y destino, usando para ello una cámara RGB-D, capaz de capturar imágenes en RGB y asociar a cada uno de los puntos tomados información de profundidad para crear el efecto tridimensional. En concreto, para esta investigación se ha utilizado la Asus Xtion Pro, aunque existen otros modelos conocidos como la Kinect de Microsoft.

Cada fotograma incluye información sobre los colores y la iluminación para reconstruir la escena. Para transferir la expresión, se calcula la diferencia entre las expresiones de origen y destino en el espacio de parámetros, y se modifican los parámetros de destino para que coincidan con las expresiones de origen. El proceso es bastante similar al utilizado por la tecnología de captura de movimiento.

El ordenador procesa la transferencia en unos 30 milisegundos, aunque algunas cámaras pueden requerir un poco más, pero seguirá siendo muy poco tiempo para que un observador humano lo perciba. Los investigadores han puesto a prueba su tecnología haciendo un seguimiento en vivo de varios actores en diferentes contextos, y el resultado es cuanto menos inquietante.

Sin embargo, también tiene algunas limitaciones. Por ejemplo, cuando se realizan movimientos de cabeza muy rápidos, puede dar lugar a fallos de seguimiento. También los entornos oscuros introducen ruido a los sensores RGB, lo que reduce la estabilidad de seguimiento temporal. Otra incidencia se produce a veces al copiar arrugas o diferencias significativas en la piel, lo que puede llevar a resultados inverosímiles. En este caso, el sistema funciona mucho mejor si la edad de los actores es similar.

Una nueva tecnología permite trasladar las expresiones de una cara a otra

Aplicaciones

La teleconferencia y la traducción instantánea son los dos campos donde esta tecnología tiene más que aportar. Precisamente Skype ha presentado ya un avance de su sistema de traducción de voz en tiempo real durante las videollamadas. Niessner asegura que, con un poco más de esfuerzo, se podría combinar esa traducción en tiempo real con la transferencia de expresiones faciales acordes. Así, si una persona de habla Inglesa estuviera hablando con un hablante de mandarín, cada uno parecería estar hablando el idioma del otro.

Los informáticos también creen que su método abre nuevas posibilidades para futuras líneas de investigación. Por ejemplo, en lugar de realizar el seguimiento del actor de origen con una cámara RGB-D, el vídeo de destino podría manipularse en base a la entrada de audio.

A pesar de todo, son conscientes de que la herramienta puede generar cierta preocupación en torno a los peligros de la alteración de la realidad visual. “Cuando aparecieron por primera vez programas como Photoshop, también había incertidumbre, pero ahora toda la industria de la publicidad gira en torno a ellos», subraya Niessner. El público ha sabido adaptarse y, además, existen técnicas para detectar cualquier alteración oculta de una imagen, algo que podría extrapolarse a la transformación en vídeo.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Un nuevo reactor captura CO2 y lo convierte en combustible sostenible 17 febrero, 2025
    Investigadores británicos han desarrollado un reactor de energía solar que puede usarse para fabricar combustible sostenible a través de la captura de dióxido de carbono (CO2) directamente del aire, alimentando automóviles y aviones o haciendo posible la confección de productos químicos y farmacéuticos. Podría ser un gran avance hacia una economía circular y respetuosa del […]
    Pablo Javier Piacente / T21
  • Meta puede convertir tus pensamientos en textos, pero tienes que cargar con media tonelada 17 febrero, 2025
    Meta está probando un dispositivo que traduce la actividad cerebral en texto en pantalla, pero que requiere transportar alrededor de media tonelada de equipo de laboratorio para su funcionamiento. Aunque el sistema puede identificar con alrededor del 80% de precisión los pensamientos en la mente humana, aún está muy lejos de ser una solución práctica. 
    Pablo Javier Piacente / T21
  • Los materiales tienen memoria y podemos aprovecharla 17 febrero, 2025
    Los científicos han descubierto una nueva forma en que los materiales pueden crear "recuerdos" sobre aquello que les sucedió en el pasado, desarrollando originales y emocionantes posibilidades en la informática y la ingeniería mecánica.
    Redacción T21
  • Podemos comprender oraciones escritas en un parpadeo 16 febrero, 2025
    Nuestro cerebro puede entender oraciones escritas en lo que dura el parpadeo de un ojo, según revela un nuevo estudio. Los científicos descubrieron que el procesamiento del lenguaje escrito ocurre a velocidades significativamente más rápidas de las necesarias para hablar o comunicarse en voz alta.
    Pablo Javier Piacente
  • Las ganas de postre surgen en el cerebro cuando hemos comido bien 14 febrero, 2025
    Los investigadores demostraron que un grupo de células nerviosas, denominadas neuronas POMC, son las responsables de mantener nuestras ganas de comer postre, a pesar de haber disfrutado de un almuerzo o una cena suculenta que nos ha saciado. En roedores y humanos, estas neuronas se activan tan pronto como se tiene acceso al azúcar, facilitando […]
    Pablo Javier Piacente / T21
  • ¿ChatGPT reemplazará a los psicoterapeutas en el futuro? 14 febrero, 2025
    Los científicos descubrieron que las respuestas producidas por el popular sistema ChatGPT eran generalmente mejor valoradas que las entregadas por un psicólogo humano en el marco de una situación de terapia de pareja: eran más largas y contenían más sustantivos y adjetivos, aportando una mayor contextualización.
    Pablo Javier Piacente / T21
  • Una bacteria podría resolver los crímenes ligados a agresiones sexuales 14 febrero, 2025
    Una especie bacteriana única, conocida como “sexoma”, se transfiere entre individuos durante las relaciones sexuales. Estas firmas microbianas podrían servir como evidencia forense, incluso cuando no existan marcadores de ADN tradicionales, transformándose en una herramienta clave para la resolución de delitos que involucren agresiones sexuales.
    Redacción T21
  • ¿Será capaz Europa de subirse al tren de la Inteligencia Artificial? 14 febrero, 2025
    Europa va a invertir 309.000 millones de euros en Inteligencia artificial, muy lejos de los 500.000 euros que se propone Estados Unidos, mediante una iniciativa público-privada que parece más un ideal que un plan de acción realista. De momento.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Descubren el lugar exacto dónde la vida comenzó a desarrollarse en la Tierra primitiva 13 febrero, 2025
    Científicos estadounidenses concluyen en un nuevo estudio que los primeros microorganismos que se adaptaron de un entorno prehistórico con poco oxígeno al que existe en la actualidad lo lograron en ambientes semejantes a los enormes géiseres del actual Parque Nacional de Yellowstone, ubicado en el oeste de Estados Unidos, hace aproximadamente 2.400 millones de años.
    Pablo Javier Piacente / T21
  • Comprobado en ratones: el estrés intensivo provoca sordera 13 febrero, 2025
    Los resultados de un nuevo estudio muestran que el estrés repetido podría cambiar la forma en que percibimos y respondemos al mundo que nos rodea: en roedores, los científicos comprobaron que se producen cambios en la forma en que el cerebro procesa el sonido, disminuyendo la capacidad para percibir los ruidos más intensos.
    Pablo Javier Piacente / T21