Tendencias21
La traducción automática se orienta sobre todo a Internet y los textos técnicos

La traducción automática se orienta sobre todo a Internet y los textos técnicos

Como todas las tecnologías, la traducción automática tiene sus limitaciones, señala en la siguiente entrevista Mike Dillinger, Presidente de la Association for Machine Translation in the Americas y profesor adjunto del departamento de Psicología de la San José State University. Mike Dillinger ha estado en la Facultad de Informática de la Universidad Politécnica de Madrid invitado por el Departamento de Inteligencia Artificial, impartiendo un curso sobre paráfrasis y minería de textos. Considera que la traducción automática necesita textos limpios y claros para funcionar bien y que, a pesar de los avances tecnológicos, siempre se necesitarán traductores humanos para textos legales o literarios. La Traducción Automática, añade, se orienta principalmente a Internet y textos técnicos. La tendencia de la TA hacia Internet implica entrenar a los que crean contenidos web para que puedan ser traducidos automáticamente.

La traducción automática se orienta sobre todo a Internet y los textos técnicos

– Como reconocido experto en la traducción automática, ¿cómo definiría el estado del arte en esta disciplina?

El estado del arte es un estado de muchísimos cambios. Hace quince o veinte años se introdujo un enfoque nuevo que tuvo consecuencias muy importantes. Nuestro problema principal en aquella época tenía dos partes: costaba mucho tiempo y mucho dinero desarrollar las reglas gramaticales necesarias para analizar la frase original y las reglas de «transferencia» o traducción; y parecía imposible abarcar manualmente la vasta variedad de palabras y tipos de frases en los documentos.

El nuevo enfoque utiliza técnicas estadísticas para identificar reglas cualitativamente más simples pero lo hace rápidamente, automáticamente, y en amplísima escala para abarcar mucho más de la lengua. Técnicas semejantes se utilizan para identificar términos y sus posibles traducciones.

¡Son avances enormes! Antes se desarrollaban los sistemas de forma artesanal; ahora se hace de forma industrial. Hoy las investigaciones intentan aumentar la complejidad cualitativa de las reglas para reflejar mejor las estructuras sintácticas y los aspectos del significado. Se recuperan los avances cualitativos del enfoque anterior.

– Desde los años 70 se vienen utilizando sistemas de traducción automática. ¿Ha alcanzado esta tecnología su grado de madurez?

Si se entiende madurez para utilización en aplicaciones industriales, sí, sin duda. La TA es ampliamente utilizada desde hace 30 años por instituciones industriales y militares de primer nivel. La Comunidad Europea, Ford, SAP, Symantec, las Fuerzas Aéreas Norteamericanas y muchas otras organizaciones la utilizan todos los días.

Ahora bien, si se entiende madurez para su utilización por el público que introduce cualquier frase para ser traducida, no, igualmente sin duda. Como todas las tecnologías, la traducción automática tiene sus limitaciones. No se espera de un Mercedes que marche bien en la nieve o en la arena: necesita una autovía para alcanzar su mejor rendimiento, o un vehiculo diferente. Tampoco se espera de un Fórmula1 que gane un rally utilizando gasolina común o alcohol. Necesita un combustible especial.

Desgraciadamente, muchas veces se espera una traducción perfecta de un texto poco claro y lleno de errores. Por el momento, la traducción automática necesita textos limpios y correctos para funcionar bien.

– ¿Cree que la TA es bien comprendida por la sociedad?

¡De ninguna manera! Lo veo muy frecuentemente. Muchos entienden por «traducción» algo como adivinar los pensamientos del autor aún cuando éste no se haya expresado clara y correctamente.
Así muchos tienen expectativas exageradas de lo que podría hacer un sistema de traducción. Con eso, siempre quedan decepcionados. Por otro lado, los que trabajamos con TA necesitamos hacer muchos esfuerzos para que la sociedad entienda mejor para qué sirve y cuando funciona bien: es el mandato específico de la Asociación que presido.

– ¿De qué se trata: de hacer programas, sistemas de traducción, traducción computerizada, de fabricar diccionarios electrónicos…? ¿Cómo definiría exactamente esta disciplina?

Se trata de hacer sistemas informatizados de traducción. Eso incluye, claro, construir diccionarios electrónicos, gramáticas, bases de datos de co-ocurrencias de palabras, y otros recursos lingüísticos. Pero también incluye desarrollar procesos de evaluación automática de traducciones, procesos de «limpiar» y analizar los textos de entrada, y procesos para garantizar que todo marchará bien cuando llegue un pedido para traducir 300,000 páginas de una vez. Como son procesos y componentes muy diferentes, exige la colaboración de lingüistas, programadores e ingenieros.

– ¿De qué etapas consta el proceso de traducción automatizada?

1. Preparación de los documentos. Quizá la etapa más importante, pues hay que asegurar que las frases de cada documento se comprenden bien y están correctas.

2. Adaptación del sistema de traducción. De la misma forma que ocurre con un traductor humano, el sistema de traducción automatizada necesita informaciones acerca de todas las palabras que encontrará en los documentos. Se le pueden «enseñar» otras palabras por un proceso que se llama personalización (en inglés «customization»).

3. Traducción de los documentos. Cada formato de documento, como Word, pdf o HTML, tiene muchas características diferentes, además de las frases que interesan para la traducción. En esta etapa, se separan las frases del formato en el que están, por ejemplo.

4. Verificación de las traducciones. El control de calidad es muy importante para traductores humanos y automáticos. Ni las palabras ni las frases tienen un sólo sentido, así es que es muy fácil entenderlas de una manera diferente de lo que se pretende.

5. Distribución de los documentos. Ésta es una etapa más compleja de lo que comúnmente se piensa. Cuando salen 10.000 documentos para traducir en 10 lenguas diferentes, verificar que todos fueron traducidos, ponerlos todos en el orden correcto sin mezclar las lenguas, etc., exige mucha organización.

– ¿Constituye esta tecnología una amenaza para el trabajo de los intérpretes humanos? ¿Cree que aumenta realmente los puestos de trabajo?

¡De ninguna manera constituye una amenaza! La TA quita de las manos del traductor humano lo más rutinario para que pueda aplicar sus conocimientos especializados en lo mas difícil. Siempre necesitaremos traductores humanos para textos legales, literarios, textos mas complejos.

Por otro lado, la TA hoy día se aplica más a situaciones en las que los humanos no participan. Sería incluso cruel poner personas a traducir correos electrónicos, chats, mensajes SMS y páginas Web aleatorias. El volumen de textos es tan grande y la velocidad de traducción que exigen son tales, que sería una tortura para un humano. Es cuestión de escala: un traductor humano normal produce de 8 a 10 páginas traducidas por día. A escala web, 8 a 10 páginas por segundo sería poquísimo.

La introducción de nuevas tecnologías raras veces aumenta los puestos de trabajo, mucho menos en una economía global. Lo que hace es crear una diferencia cada vez más nítida entre trabajos rutinarios que exigen pocos conocimientos y los trabajos especializados.

– La implantación de esta tecnología, ¿es un problema técnico o un problema social?

Sobretodo es un problema de ingeniería social porque las personas tienen que cambiar sus comportamientos y su modo de ver las cosas. El proceso de la TA sigue exactamente las mismas etapas de la traducción humana, con dos diferencias principales:

a) En los sistemas de traducción hay que tener muchísimo más cuidado con la redacción. Los traductores humanos utilizan sus conocimientos técnicos (cuando los hay) para compensar los fallos de redacción, pero los sistemas de traducción automatizada no tienen esos conocimientos: reflejan demasiado fielmente los fallos del texto inicial. Es difícil conseguir que se traduzca más fielmente, pero hoy día hay herramientas de revisión automática que ayudan muchísimo. Symantec es un ejemplo reciente que utiliza un revisor automático y un sistema de traducción para alcanzar resultados rapidísimos y buenísimos.

b) En los sistemas de traducción hay que trabajar con muchísimos documentos traducidos. ¿Qué pasa si, en vez de 50 documentos traducidos a la semana, una organización recibe 5.000? Automatizar el proceso de traducción acaba por revelar que otras partes del manejo de documentos tienen problemas.

– Usted habla de que el British Nacional Corpus, que recoge un conjunto relacionado de textos representativos de la lengua inglesa, tiene 15 millones de términos diferentes, pero que los diccionarios de traducción automática sólo tienen 300.000 términos. ¿Cómo superar esta barrera a la hora de edificar un sistema de TA aceptable para la sociedad?

Esta colección de más de 100 millones de palabras en inglés refleja muy bien las características macro de la lengua. Una es ésta: se utilizan muchísimas palabras. Sin embargo, su frecuencia es radicalmente diferente: de los 15 millones de términos, ¡el 70% sólo se utiliza pocas veces!

Para superar la «barrera» de la variabilidad del vocabulario, hoy día se utilizan las palabras más frecuentes para crear un sistema de base al que se agregan de 5.000 a 10.00 palabras específicas para cada cliente comercial. Funciona bastante bien.

Para aplicaciones web, eso simplemente no funciona. Faltan, incluso en los mejores sistemas, literalmente millones de palabras, sin contar que nuevas palabras son inventadas a cada día. Hay por lo menos tres remedios actuales: pedirle al usuario «intentar otra vez» la traducción, pedirle al usuario que introduzca un sinónimo, y construir automáticamente o semi-automáticamente bases de datos de sinónimos.

A mi modo de ver, tendremos que desarrollar sistemas para «guiar» al autor de contenidos web, como ya existen para contenidos técnicos. Hay fuertes presiones económicas para ir en esa dirección.

– La Association for Machine Translation in the Americas que usted preside organiza la conferencia AMTA 2008, que se celebrará el próximo octubre en Hawai. ¿Qué novedades se aportarán en esta conferencia?

¡Las hay siempre! ¡Hay que ir para verlas! Una cosa diferente que se hace esta vez es juntar conferencias de varios grupos. No es una sola conferencia. En el mismo hotel, en la misma semana, tendremos AMTA, el Workshop internacional de la traducción del Habla (IWSLT), un Workshop del órgano del gobierno americano NIST sobre cómo evaluar los métodos de evaluación de traducción, un encuentro de la Localization Industry Standards Association que trae representantes de grandes empresas, y otro grupo de investigadores del congreso Empirical Methods in Natural Language Processing (EMNLP). Finalmente, como será en Hawai, nuestros colegas de Asia vendrán para que sea aún mas internacional. Pueden mantenerse informados en la página de web del congreso.

Esta entrevista se publicó originalmente en la web la Facultad de Informática de la Universidad Politécnica de Madrid. Se reproduce con autorización.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Ya es posible transmitir el tacto a través de Internet 26 junio, 2024
    Un nuevo estándar para la compresión y transmisión del sentido del tacto mediante Internet sienta las bases para la telecirugía, la teleconducción y nuevas experiencias de juego en línea, entre otras aplicaciones. El flamante estándar HCTI (Haptic Codecs for the Tactile Internet) es para el “tacto digital” lo que son JPEG, MP3 y MPEG para […]
    Pablo Javier Piacente
  • Las primeras muestras de la cara oculta de la Luna ya están en la Tierra 26 junio, 2024
    La cápsula de reingreso de la sonda Chang'e-6 de China, que transporta hasta dos kilogramos de materiales extraídos y perforados de la cuenca más antigua de la Luna ubicada en su lado oscuro, aterrizó este martes 25 de junio en la región de Mongolia Interior y fue rápidamente recuperada, según informó la Administración Nacional del […]
    Pablo Javier Piacente
  • La Tierra tendrá dos soles dentro de 1,3 millones de años y durante 60.000 años 26 junio, 2024
    Dentro de 1,3 millones de años, la Tierra tendrá una especie de segundo sol porque la estrella Gliese 710 se acercará a 1,1 años luz de la Tierra y la veríamos del mismo tamaño que Júpiter. Lo malo es que esa alteración cósmica puede provocar un episodio en nuestro planeta como el que acabó con […]
    Eduardo Martínez de la Fe
  • China descubre grafeno natural en la Luna 25 junio, 2024
    Investigadores chinos han descubierto recientemente grafeno natural de escasas capas por primera vez en la Luna, a partir de las muestras traídas a la Tierra por la sonda Chang'e 5. El hallazgo proporciona nuevos conocimientos sobre las actividades geológicas, la historia evolutiva y las características ambientales de la Luna.
    Pablo Javier Piacente
  • Los incendios forestales extremos se duplicaron en los últimos 20 años en todo el planeta 25 junio, 2024
    Una nueva investigación concluye que la frecuencia e intensidad de los incendios forestales extremos se ha más que duplicado en todo el mundo en las últimas dos décadas, debido al calentamiento global antropogénico y otros factores relacionados. Se trata de la primera ocasión en la cual los científicos pudieron trazar una tendencia global para los […]
    Pablo Javier Piacente
  • Detectado en el Mediterráneo el neutrino más energético del universo 25 junio, 2024
    El neutrino más potente jamás observado ha dejado su huella en las profundidades del Mediterráneo, aunque todavía se desconoce de qué rincón del universo procede. Los neutrinos cosmogénicos son los mensajeros de algunos de los eventos más cataclísmicos del cosmos.
    Eduardo Martínez de la Fe
  • La IA identifica seis formas diferentes de depresión 24 junio, 2024
    Los científicos han identificado seis formas biológicamente distintas de depresión gracias a la aplicación de la Inteligencia Artificial (IA) en estudios cerebrales. El hallazgo podría explicar por qué algunas personas no responden a los tratamientos tradicionales para la afección, como los antidepresivos y la terapia psicológica.
    Pablo Javier Piacente
  • La NASA pondrá en órbita una estrella artificial que revolucionará el estudio del Universo 24 junio, 2024
    La NASA encarará un ambicioso proyecto para colocar en órbita una estrella artificial: permitirá la calibración de telescopios a niveles previamente inalcanzables. El proyecto tiene como objetivo mejorar significativamente las mediciones de la luminosidad estelar y abordar varios otros desafíos que dificultan la astrofísica moderna.
    Pablo Javier Piacente
  • Los macacos nos enseñan cómo sobrevivir a un desastre natural 24 junio, 2024
    Los macacos de la isla caribeña de Puerto Rico se volvieron más tolerantes y menos agresivos después del huracán María, que los obligó a compartir la sombra de los árboles para sobrevivir al intenso calor.
    Redacción T21
  • Extrañas formas de vida se ocultan en antiguas cuevas de lava de Hawai 23 junio, 2024
    Científicos estadounidenses han logrado identificar una gran diversidad de especies microbianas únicas, que se han desarrollado en cuevas geotérmicas, tubos de lava y fumarolas volcánicas de la isla de Hawái. Estas estructuras subterráneas se formaron hace entre 65 y 800 años y reciben poca o ninguna luz solar, en ambientes similares a los que pueden encontrarse […]
    Pablo Javier Piacente