Tendencias21
La traducción automática se orienta sobre todo a Internet y los textos técnicos

La traducción automática se orienta sobre todo a Internet y los textos técnicos

Como todas las tecnologías, la traducción automática tiene sus limitaciones, señala en la siguiente entrevista Mike Dillinger, Presidente de la Association for Machine Translation in the Americas y profesor adjunto del departamento de Psicología de la San José State University. Mike Dillinger ha estado en la Facultad de Informática de la Universidad Politécnica de Madrid invitado por el Departamento de Inteligencia Artificial, impartiendo un curso sobre paráfrasis y minería de textos. Considera que la traducción automática necesita textos limpios y claros para funcionar bien y que, a pesar de los avances tecnológicos, siempre se necesitarán traductores humanos para textos legales o literarios. La Traducción Automática, añade, se orienta principalmente a Internet y textos técnicos. La tendencia de la TA hacia Internet implica entrenar a los que crean contenidos web para que puedan ser traducidos automáticamente.

La traducción automática se orienta sobre todo a Internet y los textos técnicos

– Como reconocido experto en la traducción automática, ¿cómo definiría el estado del arte en esta disciplina?

El estado del arte es un estado de muchísimos cambios. Hace quince o veinte años se introdujo un enfoque nuevo que tuvo consecuencias muy importantes. Nuestro problema principal en aquella época tenía dos partes: costaba mucho tiempo y mucho dinero desarrollar las reglas gramaticales necesarias para analizar la frase original y las reglas de «transferencia» o traducción; y parecía imposible abarcar manualmente la vasta variedad de palabras y tipos de frases en los documentos.

El nuevo enfoque utiliza técnicas estadísticas para identificar reglas cualitativamente más simples pero lo hace rápidamente, automáticamente, y en amplísima escala para abarcar mucho más de la lengua. Técnicas semejantes se utilizan para identificar términos y sus posibles traducciones.

¡Son avances enormes! Antes se desarrollaban los sistemas de forma artesanal; ahora se hace de forma industrial. Hoy las investigaciones intentan aumentar la complejidad cualitativa de las reglas para reflejar mejor las estructuras sintácticas y los aspectos del significado. Se recuperan los avances cualitativos del enfoque anterior.

– Desde los años 70 se vienen utilizando sistemas de traducción automática. ¿Ha alcanzado esta tecnología su grado de madurez?

Si se entiende madurez para utilización en aplicaciones industriales, sí, sin duda. La TA es ampliamente utilizada desde hace 30 años por instituciones industriales y militares de primer nivel. La Comunidad Europea, Ford, SAP, Symantec, las Fuerzas Aéreas Norteamericanas y muchas otras organizaciones la utilizan todos los días.

Ahora bien, si se entiende madurez para su utilización por el público que introduce cualquier frase para ser traducida, no, igualmente sin duda. Como todas las tecnologías, la traducción automática tiene sus limitaciones. No se espera de un Mercedes que marche bien en la nieve o en la arena: necesita una autovía para alcanzar su mejor rendimiento, o un vehiculo diferente. Tampoco se espera de un Fórmula1 que gane un rally utilizando gasolina común o alcohol. Necesita un combustible especial.

Desgraciadamente, muchas veces se espera una traducción perfecta de un texto poco claro y lleno de errores. Por el momento, la traducción automática necesita textos limpios y correctos para funcionar bien.

– ¿Cree que la TA es bien comprendida por la sociedad?

¡De ninguna manera! Lo veo muy frecuentemente. Muchos entienden por «traducción» algo como adivinar los pensamientos del autor aún cuando éste no se haya expresado clara y correctamente.
Así muchos tienen expectativas exageradas de lo que podría hacer un sistema de traducción. Con eso, siempre quedan decepcionados. Por otro lado, los que trabajamos con TA necesitamos hacer muchos esfuerzos para que la sociedad entienda mejor para qué sirve y cuando funciona bien: es el mandato específico de la Asociación que presido.

– ¿De qué se trata: de hacer programas, sistemas de traducción, traducción computerizada, de fabricar diccionarios electrónicos…? ¿Cómo definiría exactamente esta disciplina?

Se trata de hacer sistemas informatizados de traducción. Eso incluye, claro, construir diccionarios electrónicos, gramáticas, bases de datos de co-ocurrencias de palabras, y otros recursos lingüísticos. Pero también incluye desarrollar procesos de evaluación automática de traducciones, procesos de «limpiar» y analizar los textos de entrada, y procesos para garantizar que todo marchará bien cuando llegue un pedido para traducir 300,000 páginas de una vez. Como son procesos y componentes muy diferentes, exige la colaboración de lingüistas, programadores e ingenieros.

– ¿De qué etapas consta el proceso de traducción automatizada?

1. Preparación de los documentos. Quizá la etapa más importante, pues hay que asegurar que las frases de cada documento se comprenden bien y están correctas.

2. Adaptación del sistema de traducción. De la misma forma que ocurre con un traductor humano, el sistema de traducción automatizada necesita informaciones acerca de todas las palabras que encontrará en los documentos. Se le pueden «enseñar» otras palabras por un proceso que se llama personalización (en inglés «customization»).

3. Traducción de los documentos. Cada formato de documento, como Word, pdf o HTML, tiene muchas características diferentes, además de las frases que interesan para la traducción. En esta etapa, se separan las frases del formato en el que están, por ejemplo.

4. Verificación de las traducciones. El control de calidad es muy importante para traductores humanos y automáticos. Ni las palabras ni las frases tienen un sólo sentido, así es que es muy fácil entenderlas de una manera diferente de lo que se pretende.

5. Distribución de los documentos. Ésta es una etapa más compleja de lo que comúnmente se piensa. Cuando salen 10.000 documentos para traducir en 10 lenguas diferentes, verificar que todos fueron traducidos, ponerlos todos en el orden correcto sin mezclar las lenguas, etc., exige mucha organización.

– ¿Constituye esta tecnología una amenaza para el trabajo de los intérpretes humanos? ¿Cree que aumenta realmente los puestos de trabajo?

¡De ninguna manera constituye una amenaza! La TA quita de las manos del traductor humano lo más rutinario para que pueda aplicar sus conocimientos especializados en lo mas difícil. Siempre necesitaremos traductores humanos para textos legales, literarios, textos mas complejos.

Por otro lado, la TA hoy día se aplica más a situaciones en las que los humanos no participan. Sería incluso cruel poner personas a traducir correos electrónicos, chats, mensajes SMS y páginas Web aleatorias. El volumen de textos es tan grande y la velocidad de traducción que exigen son tales, que sería una tortura para un humano. Es cuestión de escala: un traductor humano normal produce de 8 a 10 páginas traducidas por día. A escala web, 8 a 10 páginas por segundo sería poquísimo.

La introducción de nuevas tecnologías raras veces aumenta los puestos de trabajo, mucho menos en una economía global. Lo que hace es crear una diferencia cada vez más nítida entre trabajos rutinarios que exigen pocos conocimientos y los trabajos especializados.

– La implantación de esta tecnología, ¿es un problema técnico o un problema social?

Sobretodo es un problema de ingeniería social porque las personas tienen que cambiar sus comportamientos y su modo de ver las cosas. El proceso de la TA sigue exactamente las mismas etapas de la traducción humana, con dos diferencias principales:

a) En los sistemas de traducción hay que tener muchísimo más cuidado con la redacción. Los traductores humanos utilizan sus conocimientos técnicos (cuando los hay) para compensar los fallos de redacción, pero los sistemas de traducción automatizada no tienen esos conocimientos: reflejan demasiado fielmente los fallos del texto inicial. Es difícil conseguir que se traduzca más fielmente, pero hoy día hay herramientas de revisión automática que ayudan muchísimo. Symantec es un ejemplo reciente que utiliza un revisor automático y un sistema de traducción para alcanzar resultados rapidísimos y buenísimos.

b) En los sistemas de traducción hay que trabajar con muchísimos documentos traducidos. ¿Qué pasa si, en vez de 50 documentos traducidos a la semana, una organización recibe 5.000? Automatizar el proceso de traducción acaba por revelar que otras partes del manejo de documentos tienen problemas.

– Usted habla de que el British Nacional Corpus, que recoge un conjunto relacionado de textos representativos de la lengua inglesa, tiene 15 millones de términos diferentes, pero que los diccionarios de traducción automática sólo tienen 300.000 términos. ¿Cómo superar esta barrera a la hora de edificar un sistema de TA aceptable para la sociedad?

Esta colección de más de 100 millones de palabras en inglés refleja muy bien las características macro de la lengua. Una es ésta: se utilizan muchísimas palabras. Sin embargo, su frecuencia es radicalmente diferente: de los 15 millones de términos, ¡el 70% sólo se utiliza pocas veces!

Para superar la «barrera» de la variabilidad del vocabulario, hoy día se utilizan las palabras más frecuentes para crear un sistema de base al que se agregan de 5.000 a 10.00 palabras específicas para cada cliente comercial. Funciona bastante bien.

Para aplicaciones web, eso simplemente no funciona. Faltan, incluso en los mejores sistemas, literalmente millones de palabras, sin contar que nuevas palabras son inventadas a cada día. Hay por lo menos tres remedios actuales: pedirle al usuario «intentar otra vez» la traducción, pedirle al usuario que introduzca un sinónimo, y construir automáticamente o semi-automáticamente bases de datos de sinónimos.

A mi modo de ver, tendremos que desarrollar sistemas para «guiar» al autor de contenidos web, como ya existen para contenidos técnicos. Hay fuertes presiones económicas para ir en esa dirección.

– La Association for Machine Translation in the Americas que usted preside organiza la conferencia AMTA 2008, que se celebrará el próximo octubre en Hawai. ¿Qué novedades se aportarán en esta conferencia?

¡Las hay siempre! ¡Hay que ir para verlas! Una cosa diferente que se hace esta vez es juntar conferencias de varios grupos. No es una sola conferencia. En el mismo hotel, en la misma semana, tendremos AMTA, el Workshop internacional de la traducción del Habla (IWSLT), un Workshop del órgano del gobierno americano NIST sobre cómo evaluar los métodos de evaluación de traducción, un encuentro de la Localization Industry Standards Association que trae representantes de grandes empresas, y otro grupo de investigadores del congreso Empirical Methods in Natural Language Processing (EMNLP). Finalmente, como será en Hawai, nuestros colegas de Asia vendrán para que sea aún mas internacional. Pueden mantenerse informados en la página de web del congreso.

Esta entrevista se publicó originalmente en la web la Facultad de Informática de la Universidad Politécnica de Madrid. Se reproduce con autorización.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Samsung Haean: Las gafas inteligentes que revolucionarán la realidad aumentada en 2025 26 marzo, 2025
    ¿Te imaginas llevar un par de gafas que traduzcan idiomas en tiempo real, te guíen por la ciudad y hasta te ayuden a realizar pagos? Samsung está a punto de hacerlo posible con Haean, un revolucionario dispositivo que podría llegar al mercado antes de finalizar 2025.
    Redacción T21
  • Las cámaras con IA podrían lograr que los vehículos autónomos se masifiquen 26 marzo, 2025
    Una nueva tecnología de cámaras impulsadas por Inteligencia Artificial (IA) permitirá a los vehículos sin conductor reaccionar más rápido que un velocista olímpico, ver en 3D y hacer que la conducción autónoma sea más segura y asequible.
    Redacción T21
  • Filtración en Signal: ¿Un error humano o una negligencia tecnológica? 26 marzo, 2025
    La reciente filtración de conversaciones en Signal en el seno de la administración Trump expone los riesgos de usar herramientas de consumo para gestionar información clasificada. Esta crisis pone el foco en los protocolos de seguridad, la gestión de datos y la Ley de Registros Federales.
    Redacción T21
  • Descubren una firme y alarmante relación entre las bebidas azucaradas y el cáncer 25 marzo, 2025
    Un nuevo estudio ha hallado un vínculo alarmante entre las bebidas azucaradas y el cáncer oral: los científicos de la Universidad de Washington descubrieron que las mujeres que beben al menos un refresco azucarado por día parecen tener aproximadamente cinco veces más probabilidades de contraer cáncer de cavidad oral (OCC) que las mujeres que evitan […]
    Pablo Javier Piacente / T21
  • Elon Musk y Neuralink ya están patentando una aplicación de "telepatía" 25 marzo, 2025
    En los últimos meses, Elon Musk y su equipo en Neuralink se han referido a las capacidades del chip de interfaz cerebral de la compañía, The Link, como “Telepatía”. Neuralink incluso ha presentado una solicitud de marca comercial ante los organismos oficiales estadounidenses para reservar los nombres “Telepatía” y “Telekinesis”. ¿Ya tiene Neuralink el secreto […]
    Pablo Javier Piacente / T21
  • Desarrollan la pantalla LED más pequeña del mundo: tiene el tamaño de un virus 25 marzo, 2025
    Investigadores de la Universidad de Zhejiang en Hangzhou, China, en colaboración con la Universidad de Cambridge, han creado una pantalla LED con píxeles que miden solo 90 nanómetros de ancho, un tamaño comparable al de los virus típicos. 
    Redacción T21
  • La revolución de la inteligencia artificial: ¿la era del fin del trabajo humano? 25 marzo, 2025
    La IA ha cruzado un umbral crítico: pronto podríamos ver sistemas autónomos capaces de realizar tareas humanas complejas, de semanas de duración, realizadas en apenas horas, cambiando para siempre el mercado laboral y la sociedad.
    Redacción T21
  • ¿Por qué no recordamos nada de cuando éramos bebés? 25 marzo, 2025
    El enigma de la memoria infantil parece comenzar a resolverse: una nueva investigación muestra que los bebés pueden codificar recuerdos específicos, sugiriendo que la “amnesia infantil” que nos impide recordar la etapa más temprana de la vida podría ser un problema de recuperación de memoria.
    Redacción T21
  • Todos los robots en todas partes: la era de la robótica generalista ha llegado 25 marzo, 2025
    Nos dirigimos a pasos acelerados a un mundo en el que conviviremos y seremos asistidos por robots humanoides E-AGI, que se ocuparán de muchas de las tareas de trabajadores humanos. Será un reto para nuestro actual sistema legislativo, policial y jurídico.
    Alejandro Sacristán
  • Los humanos modernos provienen de una combinación de linajes genéticos 24 marzo, 2025
    Una nueva investigación muestra que nuestros orígenes evolutivos son más complejos de lo pensado y no provienen de un único linaje, involucrando diferentes grupos que se desarrollaron por separado durante más de un millón de años, y luego se combinaron para formar la especie humana moderna.
    Pablo Javier Piacente / T21