Tendencias21
La traducción automática se orienta sobre todo a Internet y los textos técnicos

La traducción automática se orienta sobre todo a Internet y los textos técnicos

Como todas las tecnologías, la traducción automática tiene sus limitaciones, señala en la siguiente entrevista Mike Dillinger, Presidente de la Association for Machine Translation in the Americas y profesor adjunto del departamento de Psicología de la San José State University. Mike Dillinger ha estado en la Facultad de Informática de la Universidad Politécnica de Madrid invitado por el Departamento de Inteligencia Artificial, impartiendo un curso sobre paráfrasis y minería de textos. Considera que la traducción automática necesita textos limpios y claros para funcionar bien y que, a pesar de los avances tecnológicos, siempre se necesitarán traductores humanos para textos legales o literarios. La Traducción Automática, añade, se orienta principalmente a Internet y textos técnicos. La tendencia de la TA hacia Internet implica entrenar a los que crean contenidos web para que puedan ser traducidos automáticamente.

La traducción automática se orienta sobre todo a Internet y los textos técnicos

– Como reconocido experto en la traducción automática, ¿cómo definiría el estado del arte en esta disciplina?

El estado del arte es un estado de muchísimos cambios. Hace quince o veinte años se introdujo un enfoque nuevo que tuvo consecuencias muy importantes. Nuestro problema principal en aquella época tenía dos partes: costaba mucho tiempo y mucho dinero desarrollar las reglas gramaticales necesarias para analizar la frase original y las reglas de «transferencia» o traducción; y parecía imposible abarcar manualmente la vasta variedad de palabras y tipos de frases en los documentos.

El nuevo enfoque utiliza técnicas estadísticas para identificar reglas cualitativamente más simples pero lo hace rápidamente, automáticamente, y en amplísima escala para abarcar mucho más de la lengua. Técnicas semejantes se utilizan para identificar términos y sus posibles traducciones.

¡Son avances enormes! Antes se desarrollaban los sistemas de forma artesanal; ahora se hace de forma industrial. Hoy las investigaciones intentan aumentar la complejidad cualitativa de las reglas para reflejar mejor las estructuras sintácticas y los aspectos del significado. Se recuperan los avances cualitativos del enfoque anterior.

– Desde los años 70 se vienen utilizando sistemas de traducción automática. ¿Ha alcanzado esta tecnología su grado de madurez?

Si se entiende madurez para utilización en aplicaciones industriales, sí, sin duda. La TA es ampliamente utilizada desde hace 30 años por instituciones industriales y militares de primer nivel. La Comunidad Europea, Ford, SAP, Symantec, las Fuerzas Aéreas Norteamericanas y muchas otras organizaciones la utilizan todos los días.

Ahora bien, si se entiende madurez para su utilización por el público que introduce cualquier frase para ser traducida, no, igualmente sin duda. Como todas las tecnologías, la traducción automática tiene sus limitaciones. No se espera de un Mercedes que marche bien en la nieve o en la arena: necesita una autovía para alcanzar su mejor rendimiento, o un vehiculo diferente. Tampoco se espera de un Fórmula1 que gane un rally utilizando gasolina común o alcohol. Necesita un combustible especial.

Desgraciadamente, muchas veces se espera una traducción perfecta de un texto poco claro y lleno de errores. Por el momento, la traducción automática necesita textos limpios y correctos para funcionar bien.

– ¿Cree que la TA es bien comprendida por la sociedad?

¡De ninguna manera! Lo veo muy frecuentemente. Muchos entienden por «traducción» algo como adivinar los pensamientos del autor aún cuando éste no se haya expresado clara y correctamente.
Así muchos tienen expectativas exageradas de lo que podría hacer un sistema de traducción. Con eso, siempre quedan decepcionados. Por otro lado, los que trabajamos con TA necesitamos hacer muchos esfuerzos para que la sociedad entienda mejor para qué sirve y cuando funciona bien: es el mandato específico de la Asociación que presido.

– ¿De qué se trata: de hacer programas, sistemas de traducción, traducción computerizada, de fabricar diccionarios electrónicos…? ¿Cómo definiría exactamente esta disciplina?

Se trata de hacer sistemas informatizados de traducción. Eso incluye, claro, construir diccionarios electrónicos, gramáticas, bases de datos de co-ocurrencias de palabras, y otros recursos lingüísticos. Pero también incluye desarrollar procesos de evaluación automática de traducciones, procesos de «limpiar» y analizar los textos de entrada, y procesos para garantizar que todo marchará bien cuando llegue un pedido para traducir 300,000 páginas de una vez. Como son procesos y componentes muy diferentes, exige la colaboración de lingüistas, programadores e ingenieros.

– ¿De qué etapas consta el proceso de traducción automatizada?

1. Preparación de los documentos. Quizá la etapa más importante, pues hay que asegurar que las frases de cada documento se comprenden bien y están correctas.

2. Adaptación del sistema de traducción. De la misma forma que ocurre con un traductor humano, el sistema de traducción automatizada necesita informaciones acerca de todas las palabras que encontrará en los documentos. Se le pueden «enseñar» otras palabras por un proceso que se llama personalización (en inglés «customization»).

3. Traducción de los documentos. Cada formato de documento, como Word, pdf o HTML, tiene muchas características diferentes, además de las frases que interesan para la traducción. En esta etapa, se separan las frases del formato en el que están, por ejemplo.

4. Verificación de las traducciones. El control de calidad es muy importante para traductores humanos y automáticos. Ni las palabras ni las frases tienen un sólo sentido, así es que es muy fácil entenderlas de una manera diferente de lo que se pretende.

5. Distribución de los documentos. Ésta es una etapa más compleja de lo que comúnmente se piensa. Cuando salen 10.000 documentos para traducir en 10 lenguas diferentes, verificar que todos fueron traducidos, ponerlos todos en el orden correcto sin mezclar las lenguas, etc., exige mucha organización.

– ¿Constituye esta tecnología una amenaza para el trabajo de los intérpretes humanos? ¿Cree que aumenta realmente los puestos de trabajo?

¡De ninguna manera constituye una amenaza! La TA quita de las manos del traductor humano lo más rutinario para que pueda aplicar sus conocimientos especializados en lo mas difícil. Siempre necesitaremos traductores humanos para textos legales, literarios, textos mas complejos.

Por otro lado, la TA hoy día se aplica más a situaciones en las que los humanos no participan. Sería incluso cruel poner personas a traducir correos electrónicos, chats, mensajes SMS y páginas Web aleatorias. El volumen de textos es tan grande y la velocidad de traducción que exigen son tales, que sería una tortura para un humano. Es cuestión de escala: un traductor humano normal produce de 8 a 10 páginas traducidas por día. A escala web, 8 a 10 páginas por segundo sería poquísimo.

La introducción de nuevas tecnologías raras veces aumenta los puestos de trabajo, mucho menos en una economía global. Lo que hace es crear una diferencia cada vez más nítida entre trabajos rutinarios que exigen pocos conocimientos y los trabajos especializados.

– La implantación de esta tecnología, ¿es un problema técnico o un problema social?

Sobretodo es un problema de ingeniería social porque las personas tienen que cambiar sus comportamientos y su modo de ver las cosas. El proceso de la TA sigue exactamente las mismas etapas de la traducción humana, con dos diferencias principales:

a) En los sistemas de traducción hay que tener muchísimo más cuidado con la redacción. Los traductores humanos utilizan sus conocimientos técnicos (cuando los hay) para compensar los fallos de redacción, pero los sistemas de traducción automatizada no tienen esos conocimientos: reflejan demasiado fielmente los fallos del texto inicial. Es difícil conseguir que se traduzca más fielmente, pero hoy día hay herramientas de revisión automática que ayudan muchísimo. Symantec es un ejemplo reciente que utiliza un revisor automático y un sistema de traducción para alcanzar resultados rapidísimos y buenísimos.

b) En los sistemas de traducción hay que trabajar con muchísimos documentos traducidos. ¿Qué pasa si, en vez de 50 documentos traducidos a la semana, una organización recibe 5.000? Automatizar el proceso de traducción acaba por revelar que otras partes del manejo de documentos tienen problemas.

– Usted habla de que el British Nacional Corpus, que recoge un conjunto relacionado de textos representativos de la lengua inglesa, tiene 15 millones de términos diferentes, pero que los diccionarios de traducción automática sólo tienen 300.000 términos. ¿Cómo superar esta barrera a la hora de edificar un sistema de TA aceptable para la sociedad?

Esta colección de más de 100 millones de palabras en inglés refleja muy bien las características macro de la lengua. Una es ésta: se utilizan muchísimas palabras. Sin embargo, su frecuencia es radicalmente diferente: de los 15 millones de términos, ¡el 70% sólo se utiliza pocas veces!

Para superar la «barrera» de la variabilidad del vocabulario, hoy día se utilizan las palabras más frecuentes para crear un sistema de base al que se agregan de 5.000 a 10.00 palabras específicas para cada cliente comercial. Funciona bastante bien.

Para aplicaciones web, eso simplemente no funciona. Faltan, incluso en los mejores sistemas, literalmente millones de palabras, sin contar que nuevas palabras son inventadas a cada día. Hay por lo menos tres remedios actuales: pedirle al usuario «intentar otra vez» la traducción, pedirle al usuario que introduzca un sinónimo, y construir automáticamente o semi-automáticamente bases de datos de sinónimos.

A mi modo de ver, tendremos que desarrollar sistemas para «guiar» al autor de contenidos web, como ya existen para contenidos técnicos. Hay fuertes presiones económicas para ir en esa dirección.

– La Association for Machine Translation in the Americas que usted preside organiza la conferencia AMTA 2008, que se celebrará el próximo octubre en Hawai. ¿Qué novedades se aportarán en esta conferencia?

¡Las hay siempre! ¡Hay que ir para verlas! Una cosa diferente que se hace esta vez es juntar conferencias de varios grupos. No es una sola conferencia. En el mismo hotel, en la misma semana, tendremos AMTA, el Workshop internacional de la traducción del Habla (IWSLT), un Workshop del órgano del gobierno americano NIST sobre cómo evaluar los métodos de evaluación de traducción, un encuentro de la Localization Industry Standards Association que trae representantes de grandes empresas, y otro grupo de investigadores del congreso Empirical Methods in Natural Language Processing (EMNLP). Finalmente, como será en Hawai, nuestros colegas de Asia vendrán para que sea aún mas internacional. Pueden mantenerse informados en la página de web del congreso.

Esta entrevista se publicó originalmente en la web la Facultad de Informática de la Universidad Politécnica de Madrid. Se reproduce con autorización.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Descubren cómo nuestro cerebro predice el futuro 14 noviembre, 2024
    El cerebro hace mucho más que procesar información: aprende de experiencias pasadas y hace predicciones sobre el futuro inmediato. Así podemos vivir con seguridad las experiencias cotidianas.
    Redacción T21
  • Descubren una extraña criatura fantasmal desconocida en lo profundo del océano 13 noviembre, 2024
    Un grupo de investigadores ha revelado recientemente una variedad desconocida de nudibranquio, una extraña criatura marina que nada libremente en los mares a más de 2.200 metros de profundidad, iluminada por un brillo bioluminiscente y adornada con una capucha ondulante, que le confieren un aspecto fantasmal. Se trata del primer nudibranquio conocido de su tipo, […]
    Pablo Javier Piacente
  • Nuestros antepasados usaron herramientas hace más de 3 millones de años 13 noviembre, 2024
    Un nuevo estudio que ha analizado los huesos de las manos de australopitecos, simios y humanos revela que el uso de herramientas probablemente evolucionó antes del surgimiento del género Homo: nuestros antepasados homínidos habrían comenzado a dominarlas hace más de 3 millones de años, iniciando una práctica cultural y tecnológica que se creía propia de […]
    Pablo Javier Piacente
  • Es hora de reconstruir una Valencia que sea física, política y económicamente resiliente 13 noviembre, 2024
    La tragedia de Valencia es la suma de la crisis climática y de una gobernanza que ha priorizado el lucro de unos pocos y el crecimiento descontrolado por encima de la seguridad de las personas. Una financiación autonómica injusta y una insuficiente comprensión de los riesgos climáticos que la ciencia anuncia completan una catástrofe anunciada.
    Fernando Valladares, Agnès Delage Amat y Rafael Jiménez Aybar (*)
  • Japón lanza el primer satélite de madera al espacio 12 noviembre, 2024
    En el marco de una misión que tiene como objetivo primordial probar la hipótesis sobre la utilidad que podrían tener ciertos tipos de madera en la industria aeroespacial, investigadores japoneses lanzaron recientemente al espacio un pequeño satélite de madera. El equipo experimental fue transportado a la Estación Espacial Internacional (ISS) y se desplegará en órbita […]
    Pablo Javier Piacente
  • Los microplásticos pueden crear nubes y modificar el clima de la Tierra 12 noviembre, 2024
    Los microplásticos, directamente relacionados con los desechos industriales generados por la actividad humana y que están implicados en algunos de los problemas ambientales más graves que aquejan al planeta, también podrían producir nubes y modificar directamente el clima. Según un nuevo estudio, las partículas microplásticas pueden crear cristales de hielo a temperaturas de 5 a […]
    Pablo Javier Piacente
  • La memoria no solo reside en el cerebro, sino que está en todas las células del cuerpo 12 noviembre, 2024
    Un nuevo estudio ha descubierto que la memoria no es exclusiva del cerebro, sino que es una capacidad natural de todas las células que, por ejemplo, permite al páncreas recordar el patrón de nuestras comidas pesadas para mantener niveles saludables de glucosa en la sangre.
    Redacción T21
  • La IA podría producir hasta 5 millones de toneladas de residuos electrónicos en 10 años 11 noviembre, 2024
    La Inteligencia Artificial (IA) depende de mejoras tecnológicas rápidas, incluida la infraestructura de hardware y los chips. Las actualizaciones necesarias para seguir el ritmo del crecimiento de la tecnología podrían agravar los problemas existentes en cuanto a la acumulación de desechos electrónicos: al generar que los equipos se vuelvan obsoletos cada vez con mayor rapidez, […]
    Pablo Javier Piacente
  • Descubren cómo las neuronas controlan el cerebro 11 noviembre, 2024
    El cerebro es una maravilla de la eficiencia, que logra adaptarse y prosperar en un mundo que cambia rápidamente. A pesar de décadas de investigación, los científicos no han logrado revelar aún cómo el cerebro logra coordinar su actividad: ahora, un nuevo estudio ha descubierto la forma en que las neuronas, las células responsables de […]
    Pablo Javier Piacente
  • El ADN reescribe la historia de las víctimas de Pompeya 11 noviembre, 2024
    Algunos de los residentes que murieron juntos en la erupción volcánica del Vesubio en el año 79 d.C. no eran familiares biológicos, y otros que fueron percibidos como mujeres eran en realidad hombres. Los análisis de ADN también proporcionan nuevos conocimientos sobre la estructura de la población de Pompeya.