La tecnología da voz a quienes no pueden hablar

Más de 10 millones de personas en el mundo sufren un trastorno del habla por problemas de las funciones motoras orales, ya sea a causa de una lesión cerebral, una enfermedad neurodegenerativa como la Esclerosis Lateral Amiotrófica (ELA) o una discapacidad intelectual. Estos trastornos varían desde simples substituciones de sonido hasta la inhabilidad de comprender o utilizar el lenguaje para el habla.

Muchos de ellos utilizan dispositivos que convierten lo que escriben en voz para comunicarse. Sin embargo, se trata de una voz robótica, como la popularizada por el célebre científico británico Stephen Hawking. Para él se ha convertido ya en una de sus señas de identidad, pero su uso puede resultar traumático para un niño. E igual que a nadie se le ocurre utilizar la misma pierna protésica para una niña que para un hombre adulto, con las voces debería pasar lo mismo.

En esa línea, se están explorando durante los últimos años diferentes vías para devolver la voz a estos pacientes, bien a través de la síntesis de voz o mediante la producción artificial de habla humana. Aunque la tecnología existe desde hace décadas, los esfuerzos se centran ahora en conseguir su personalización. Varias empresas y grupos de investigación están utilizando motores de síntesis de voz para crear voces a partir de muestras, principalmente desde frases grabadas.

Es el caso de la empresa escocesa CereProc, popular por haber creado un sintetizador de voz para el crítico de cine Roger Ebert varios años antes de su muerte en 2013, tomando como base palabras básicas pronunciadas por él mismo, extraídas de diversas grabaciones suyas en programas de radio y televisión.

Otro ejemplo es la norteamericana VocaliD, aunque su enfoque es diferente, pues permite personalizar las voces utilizando sólo una pequeña muestra de su beneficiario, incluso si no pueden hablar. Para ello recurre a la donación de voces, en algunos casos de familiares de los pacientes, aunque cualquier persona puede hacerlo altruistamente.

Búsqueda de coincidencias

Según explican en la web de la empresa, la creación de voces sintéticas pasa por la audición de un actor de voz, que se graba durante días o semanas en un estudio profesional. Después, un ejército de ingenieros y lingüistas pasan de tres a cuatro meses trabajando sobre las grabaciones para sintetizarla. El resultado es una voz cara, por lo que implica el proceso, y genérica.

Rupal Patel, fundadora y CEO de VocaliD, detectó que las personas con trastornos severos de comunicación conservan la capacidad de controlar aspectos de sus voces, como el tono y el volumen. Es lo que Patel llama «melodía del habla», fundamental para conferirle identidad.

Así, basta con tres segundos de sonido del paciente para que los algoritmos busquen coincidencias entre los donantes y las combine con su ADN vocal. El resultado es una voz digital personalizada que transmite una identidad vocal única. Se presenta como un archivo de sonido que se conecta a cualquier dispositivo de conversión de texto a voz, sin ninguna configuración adicional.

«Tengo dos hermanas, una de las cuales cecea y la otra tiene la voz nasal como yo antes de tener ELA», explica Jessie Levine, una de las primeras beneficiarias de esta herramienta, en un reportaje publicado en la revista online Phys.org. «Nunca se me ocurrió que podría adaptarlas a la mía y utilizarlas”, asegura.

Crowdsourcing

El sistema no sería posible sin el banco de voces, una acción de crowdsourcing que permite que cualquiera pueda compartir su voz con otros, o almacenarla para sí mismo, desde la comodidad de su propia casa. De esta forma se está construyendo una plataforma que reúne la diversidad y riqueza de la voz humana, con hablantes de diversas lenguas, razas y edades. Hasta el momento, más de 14.000 personas en todo el mundo han contribuido a aumentar la colección con más de seis millones de frases. El proceso implica unas seis horas y 3.500 frases leídas en voz alta.

La compañía entregó sus primeras siete voces a finales del año pasado y está trabajando en casi un centenar más. Sin embargo, la barrera todavía sigue siendo el precio, pues supera los 1.000 euros cada una. Uno de las primeras receptoras fue Delaney Supple, una chica de 17 años de Massachusetts que nació con parálisis cerebral.

Hasta ahora había estado utilizando un sintetizador que reproducía lo que escribía en la pantalla de su tableta, pero con una voz digital genérica, que como es de suponer no era de su agrado. La nueva le gusta mucho, tanto a ella como a su familia. «Me encanta escucharla», reconoce su madre, Erica Supple, quien confiesa que la primera vez que la oyó le recordó a la voz de su hermano cuando era más joven.