Un equipo de investigación formado por Regina Barzilay, profesora asociada del Laboratorio de Informática e Inteligencia artificial del MIT, Ben Snyder, estudiante de posgrado en su laboratorio y Kevin Knight, alumno de la Universidad del Sur de California, ha desarrollado un nuevo sistema informático que, en cuestión de horas, consigue descifrar gran parte de la antigua lengua semítica ugarítica. Según un comunicado publicado en el MIT, el trabajo del equipo norteamericano no sólo ayudará a los arqueólogos a descifrar las lenguas más antiguas del mundo, sino que además podría ampliar el número de lenguas que los sistemas de traducción automática como Google Translate puede manejar.
El centro de la investigación es la ugarítica, una lengua que pertenece a la familia semítica (parte de la macrofamilia de lenguas afroasiáticas que se desarrollaron sobre todo por Oriente Próximo y el norte y este de África). Fue la lengua de Ugarit, un centro comercial en la costa mediterránea de Siria con una extensión aproximada de 2.000 kilómetros cuadrados. Se trata de la única lengua bien atestiguada de todas las nativas de la franja fenicia en el segundo milenio a. C.
Su escritura, cuneiforme consonántica, ya ha sido descifrada, por lo que el sistema americano ha podido comprobar el rendimiento de su programa. De las 30 letras que conforman el alfabeto ugarítico, el software ha asignado correctamente 29 de ellas a sus homólogas hebreas. Pero además, de un tercio de las palabras en hebreo que tienen cognados ugaríticos (aquellos términos con un mismo origen etimológico, pero con distinta evolución fonética) el sistema ha identificado correctamente el 60%. «De los que son incorrectos, a menudo lo son sólo por una sola letra, por lo que sirven como muy buenas conjeturas», apunta Snyder. Pero ¿cómo se ha llegado a este nivel de exactitud?
Similitud entre lenguas
La investigación parte de tres supuestos: el primero es que toda lengua está íntimamente relacionada con otra (en el caso de la ugarítica, los científicos eligieron el hebreo); el segundo es que hay una manera sistemática para asignar el alfabeto de un idioma al alfabeto de otro; y el tercero asume que existe una correlación estructural (número de partes) en las palabras compuestas de los idiomas comparados.
En el plano de la palabra, el software parte de un supuesto similar: los dos idiomas relacionados deben tener al menos algunos cognados o palabras con raíces comunes, como “main” y mano en francés y español, o “homme” y hombre. Y, por último, el sistema supone una asignación similar para partes de palabras. Por ejemplo, un término como “sobrecarga”, tiene un prefijo “sobre” y un sufijo “carga”. El sistema podría anticipar que otras palabras en la lengua contarán con ese prefijo y sufijo y que el cognado de la palabra “sobrecarga” existirá en otro idioma, como sucede con “surchargeant” en francés.
Sobre estas premisas el sistema construye mapas de símbolos que se repiten con frecuencia en un idioma y lo compara con los mapas de símbolos de otra lengua. A partir de ahí, modelos estadísticos comunes en las investigaciones de Inteligencia Artificial determinan cuál de las asignaciones parece haber identificado un conjunto coherente de sufijos y prefijos.
A continuación, el sistema podría buscar las correspondencias en el plano de la palabra, lo que, a su vez, podría ayudar a refinar aún más el mapa alfabético. Esto supone un trabajo de revisión continua, como admite uno de sus creadores, Ben Snyder: “Tenemos que recorrer los datos miles de veces, y cada vez, nuestras conjeturas tendrán mayor probabilidad, porque en realidad estamos acercándonos a una solución con la que conseguimos más coherencia. Finalmente, el sistema llega a un punto en el que alterar sus asignaciones no implica mejorar la consistencia”.
A pesar de los buenos resultados obtenidos, los padres del invento no pretenden eliminar la figura humana del traductor, ya que, reconocen que su sistema no utiliza actualmente toda la información de contexto para resolver ambigüedades. Por ejemplo, las palabras ugarítica de “casa” e “hija” se escriben de la misma manera, pero sus contrapartes hebreas no lo hacen. Aunque el programa de vez en cuando pueda mezclarlas, una persona podría fácilmente decidir cuál es la correcta dependiendo del contexto.
Voces disonantes
Sin embargo, no todo el mundo comparte el optimismo del equipo norteamericano. Andrew Robinson, que fue editor literario del suplemento de educación superior del diario Times en 2002, ya advertía entonces (con su libro Lost Languages) que «el éxito de los desciframientos arqueológicos requería una síntesis de la lógica y la intuición que los ordenadores no poseen”. Ocho años después, y con esta investigación sobre la mesa, Robinson sigue siendo escéptico. Opina que el nuevo sistema supone que está claro dónde termina un carácter o palabra y empieza otra, lo que no sucede en muchas lenguas con alfabetos ya descifrados.
Ante este argumento, Regina Barzilay contesta que probablemente el sistema requerirá adaptarlo a las características de cada lengua, y añade que «el desciframiento de la lengua ugarítica se basó en algunas coincidencias felices, como el descubrimiento de un hacha en la que estaba tallada la palabra «hacha» en ugarítico”.
De hecho, Snyder y Barzilay no creen que su sistema pueda nunca sustituir a los descifradores humanos, pero sí lo consideran como un instrumento poderoso que puede ayudarlos. Además, una variante del modelo podría ampliar la versatilidad de los software de traducción automática como Google Translate, que en la actualidad sólo opera con 57 idiomas. El equipo norteamericano presentará su trabajo en la Reunión Anual de la Asociación de Lingüística Computacional que se celebrará en Suecia del 11 al 16 de julio.
Hacer un comentario