Tendencias21
Primer diccionario multilingüe basado en palabras universales

Primer diccionario multilingüe basado en palabras universales

Un sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid. Con este sistema, es posible traducir automáticamente una palabra a varios idiomas con una precisión y exactitud del 88%. El sistema ha aplicado un algoritmo a la base de datos WordNet de la Universidad de Princeton, para crear unas palabras universales unívocas sobre las que construir el sistema de traducción. De esta forma, es posible buscar el significado de una palabra en varios idiomas y seleccionar la traducción más apropiada en la propia lengua. La primera aplicación será para el patrimonio cultural español y estará concluida en 2008. Por Eduardo Martínez.

Primer diccionario multilingüe basado en palabras universales

Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un original sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos a partir de las así llamadas palabras universales, con una fiabilidad y exactitud del 88% hasta el momento.

El sistema se basa por un lado en la base de datos WordNet, de la Universidad de Princeton. WordNet es una base de datos léxica desarrollada por lingüistas del laboratorio de ciencias cognitivas de la mencionada universidad.

Su finalidad es inventariar, clasificar y relacionar de diferente forma, el contenido semántico y léxico de la lengua inglesa. WordNet se presenta como una base de datos electrónica que puede descargarse a través de Internet.

La base fundamental de WordNet es el synset (sinónimo set), grupo de palabras intercambiables que denotan un sentido o uso particular. Cada synset es uno de los significados diferentes que puede tener una palabra, descrita de forma breve y concisa.

WordNet dispone de un léxico de más de 200.000 términos perfectamente estructurados y definidos dentro de la lengua inglesa, que constituye uno de los pilares del sistema ideado por los investigadores de la Facultad de Informática de la UPM.

El otro pilar del sistema lo constituyen las palabras universales. El concepto palabra universal tiene su origen en el Proyecto UNL (Universal Networking Language), que tiene como cometido eliminar las barreras de la diversidad lingüística creando un medio de intercambio de información que permita comunicarse en su propio idioma.

Palabras universales

Tal como explica al respecto el Centro de Lengua Española del Proyecto UNL, uno de los conceptos más básicos del UNL es el de palabra universal. El concepto de palabra universal indica que se trata de una palabra, tomada de la lengua inglesa, a la que se le elimina su ambigüedad mediante la adición de una serie de atributos y restricciones.

La palabra inglesa más los atributos y restricciones es a lo que se denomina palabra universal, ya que tiene correspondencia con sus homónimas en cualquier otra lengua. Debido a su exactitud, uno de los usos de las palabras universales es la producción de forma sistemática de diccionarios multilingües.

Aplicando un algoritmo basado en modelos computacionales a la base de datos de WordNet, los investigadores de la Facultad de Informática de la UPM han expandido los léxicos de la lengua inglesa, convirtiéndolos así en palabras universales susceptibles de ser utilizadas en la producción de diccionarios multilingües.

A continuación, estos ingenieros han creado un Diccionario de Palabras Universales que permite asociar las palabras de cada lengua con su correspondiente palabra universal sin ambigüedad. De esta forma, han desarrollado una herramienta que permite a una persona poner una palabra en su idioma original y seleccionar la correspondiente en otro idioma, de entre un conjunto de términos escritos en su propia lengua, algo inédito en la historia del multilingüismo.

Cómo funciona

El objetivo final es construir diccionarios muy precisos entre diferentes lenguas. El sistema consiste en crear palabras universales en inglés a partir de la base de datos de WordNet. A continuación esas palabras universales se pasan a lexicógrafos de diferentes países. Cada uno de ellos lee en inglés la palabra universal y entiende el significado que se le otorga.

A continuación le añade la traducción en su lengua materna, sin necesidad de conocer la lengua de destino. Aunque las palabras universales utilizan terminología inglesa, la diferencia de usar directamente el inglés como palabra universal es que el inglés es otra lengua natural y tiene ambigüedad. Al asociársele atributos y restricciones la ambigüedad desaparece y la precisión hacia otras lenguas es muy alta.

De esta forma se construye este diccionario multilingüe. El método ya está experimentado y testado con resultados sorprendentes. La exactitud y fiabilidad de las traducciones realizadas a partir de las palabras universales creadas con WordNet es del 88% en equiparación perfecta.

Sistema original

Se trata de un sistema original respecto a otros métodos lexicográficos, ya que puede generar diccionarios bilingües sin necesidad de expertos que hablen todas las lenguas implicadas. Basta con que sepan inglés con nivel suficiente, además de su lengua materna, para aportar la traducción exacta de la palabra buscada.

Aunque hoy es relativamente sencillo encontrar intérpretes de español e inglés, por ejemplo, es más complicado encontrar traductores entre portugués y búlgaro, dilema que resuelve el sistema desarrollado por los investigadores de la UPM.

Estos diccionarios bilingües basados en las múltiples equivalencias de términos no son útiles solamente para construir diccionarios, sino también para soportar sistemas de búsqueda en diferentes idiomas.

Diccionario multilingüe del patrimonio cultural español

Con este sistema, el Grupo de Validación y Aplicaciones Industriales, que dirige el profesor de la Facultad de Informática Jesús Cardeñosa, elabora un diccionario de términos multilingües para el patrimonio cultural español, por encargo del Ministerio de Cultura, en el marco del Proyecto Patrilex, que estará finalizado en 2008.

El objetivo de este proyecto es la definición de una metodología y desarrollo de herramientas que sustenten la búsqueda documental sobre patrimonio cultural basada en recursos léxicos multilingües.

Para ello se desarrollan herramientas de recursos léxicos en el contexto del Patrimonio Cultural español, consistentes en un tesauro (base de datos) multilingüe sobre el que se definirán relaciones semánticas para la mejor determinación del contexto subyacente a una pregunta.

Un tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

El resultado final será un sistema de búsqueda basado en entradas del usuario mediante palabras clave, capaz de contextualizar la pregunta y de establecer la correspondencia con las palabras equivalentes en otras lenguas.

Ello permitirá por ejemplo escribir una búsqueda en español y obtener documentos en varios idiomas ajustados a los conceptos de la búsqueda, con una precisión inédita en los actuales sistemas multilingües.

Los idiomas para la confección del Tesauro multilingüe serán el español, inglés y ruso, y el entorno real de prueba del sistema será la web de la Subdirección General de Patrimonio, hoy exclusivamente en español. La Metodología hará especial énfasis en la extensibilidad a nuevas lenguas del método seguido, señala la presentación del proyecto.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Ya es posible transmitir el tacto a través de Internet 26 junio, 2024
    Un nuevo estándar para la compresión y transmisión del sentido del tacto mediante Internet sienta las bases para la telecirugía, la teleconducción y nuevas experiencias de juego en línea, entre otras aplicaciones. El flamante estándar HCTI (Haptic Codecs for the Tactile Internet) es para el “tacto digital” lo que son JPEG, MP3 y MPEG para […]
    Pablo Javier Piacente
  • Las primeras muestras de la cara oculta de la Luna ya están en la Tierra 26 junio, 2024
    La cápsula de reingreso de la sonda Chang'e-6 de China, que transporta hasta dos kilogramos de materiales extraídos y perforados de la cuenca más antigua de la Luna ubicada en su lado oscuro, aterrizó este martes 25 de junio en la región de Mongolia Interior y fue rápidamente recuperada, según informó la Administración Nacional del […]
    Pablo Javier Piacente
  • La Tierra tendrá dos soles dentro de 1,3 millones de años y durante 60.000 años 26 junio, 2024
    Dentro de 1,3 millones de años, la Tierra tendrá una especie de segundo sol porque la estrella Gliese 710 se acercará a 1,1 años luz de la Tierra y la veríamos del mismo tamaño que Júpiter. Lo malo es que esa alteración cósmica puede provocar un episodio en nuestro planeta como el que acabó con […]
    Eduardo Martínez de la Fe
  • China descubre grafeno natural en la Luna 25 junio, 2024
    Investigadores chinos han descubierto recientemente grafeno natural de escasas capas por primera vez en la Luna, a partir de las muestras traídas a la Tierra por la sonda Chang'e 5. El hallazgo proporciona nuevos conocimientos sobre las actividades geológicas, la historia evolutiva y las características ambientales de la Luna.
    Pablo Javier Piacente
  • Los incendios forestales extremos se duplicaron en los últimos 20 años en todo el planeta 25 junio, 2024
    Una nueva investigación concluye que la frecuencia e intensidad de los incendios forestales extremos se ha más que duplicado en todo el mundo en las últimas dos décadas, debido al calentamiento global antropogénico y otros factores relacionados. Se trata de la primera ocasión en la cual los científicos pudieron trazar una tendencia global para los […]
    Pablo Javier Piacente
  • Detectado en el Mediterráneo el neutrino más energético del universo 25 junio, 2024
    El neutrino más potente jamás observado ha dejado su huella en las profundidades del Mediterráneo, aunque todavía se desconoce de qué rincón del universo procede. Los neutrinos cosmogénicos son los mensajeros de algunos de los eventos más cataclísmicos del cosmos.
    Eduardo Martínez de la Fe
  • La IA identifica seis formas diferentes de depresión 24 junio, 2024
    Los científicos han identificado seis formas biológicamente distintas de depresión gracias a la aplicación de la Inteligencia Artificial (IA) en estudios cerebrales. El hallazgo podría explicar por qué algunas personas no responden a los tratamientos tradicionales para la afección, como los antidepresivos y la terapia psicológica.
    Pablo Javier Piacente
  • La NASA pondrá en órbita una estrella artificial que revolucionará el estudio del Universo 24 junio, 2024
    La NASA encarará un ambicioso proyecto para colocar en órbita una estrella artificial: permitirá la calibración de telescopios a niveles previamente inalcanzables. El proyecto tiene como objetivo mejorar significativamente las mediciones de la luminosidad estelar y abordar varios otros desafíos que dificultan la astrofísica moderna.
    Pablo Javier Piacente
  • Los macacos nos enseñan cómo sobrevivir a un desastre natural 24 junio, 2024
    Los macacos de la isla caribeña de Puerto Rico se volvieron más tolerantes y menos agresivos después del huracán María, que los obligó a compartir la sombra de los árboles para sobrevivir al intenso calor.
    Redacción T21
  • Extrañas formas de vida se ocultan en antiguas cuevas de lava de Hawai 23 junio, 2024
    Científicos estadounidenses han logrado identificar una gran diversidad de especies microbianas únicas, que se han desarrollado en cuevas geotérmicas, tubos de lava y fumarolas volcánicas de la isla de Hawái. Estas estructuras subterráneas se formaron hace entre 65 y 800 años y reciben poca o ninguna luz solar, en ambientes similares a los que pueden encontrarse […]
    Pablo Javier Piacente