Tendencias21
Primer diccionario multilingüe basado en palabras universales

Primer diccionario multilingüe basado en palabras universales

Un sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid. Con este sistema, es posible traducir automáticamente una palabra a varios idiomas con una precisión y exactitud del 88%. El sistema ha aplicado un algoritmo a la base de datos WordNet de la Universidad de Princeton, para crear unas palabras universales unívocas sobre las que construir el sistema de traducción. De esta forma, es posible buscar el significado de una palabra en varios idiomas y seleccionar la traducción más apropiada en la propia lengua. La primera aplicación será para el patrimonio cultural español y estará concluida en 2008. Por Eduardo Martínez.

Primer diccionario multilingüe basado en palabras universales

Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un original sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos a partir de las así llamadas palabras universales, con una fiabilidad y exactitud del 88% hasta el momento.

El sistema se basa por un lado en la base de datos WordNet, de la Universidad de Princeton. WordNet es una base de datos léxica desarrollada por lingüistas del laboratorio de ciencias cognitivas de la mencionada universidad.

Su finalidad es inventariar, clasificar y relacionar de diferente forma, el contenido semántico y léxico de la lengua inglesa. WordNet se presenta como una base de datos electrónica que puede descargarse a través de Internet.

La base fundamental de WordNet es el synset (sinónimo set), grupo de palabras intercambiables que denotan un sentido o uso particular. Cada synset es uno de los significados diferentes que puede tener una palabra, descrita de forma breve y concisa.

WordNet dispone de un léxico de más de 200.000 términos perfectamente estructurados y definidos dentro de la lengua inglesa, que constituye uno de los pilares del sistema ideado por los investigadores de la Facultad de Informática de la UPM.

El otro pilar del sistema lo constituyen las palabras universales. El concepto palabra universal tiene su origen en el Proyecto UNL (Universal Networking Language), que tiene como cometido eliminar las barreras de la diversidad lingüística creando un medio de intercambio de información que permita comunicarse en su propio idioma.

Palabras universales

Tal como explica al respecto el Centro de Lengua Española del Proyecto UNL, uno de los conceptos más básicos del UNL es el de palabra universal. El concepto de palabra universal indica que se trata de una palabra, tomada de la lengua inglesa, a la que se le elimina su ambigüedad mediante la adición de una serie de atributos y restricciones.

La palabra inglesa más los atributos y restricciones es a lo que se denomina palabra universal, ya que tiene correspondencia con sus homónimas en cualquier otra lengua. Debido a su exactitud, uno de los usos de las palabras universales es la producción de forma sistemática de diccionarios multilingües.

Aplicando un algoritmo basado en modelos computacionales a la base de datos de WordNet, los investigadores de la Facultad de Informática de la UPM han expandido los léxicos de la lengua inglesa, convirtiéndolos así en palabras universales susceptibles de ser utilizadas en la producción de diccionarios multilingües.

A continuación, estos ingenieros han creado un Diccionario de Palabras Universales que permite asociar las palabras de cada lengua con su correspondiente palabra universal sin ambigüedad. De esta forma, han desarrollado una herramienta que permite a una persona poner una palabra en su idioma original y seleccionar la correspondiente en otro idioma, de entre un conjunto de términos escritos en su propia lengua, algo inédito en la historia del multilingüismo.

Cómo funciona

El objetivo final es construir diccionarios muy precisos entre diferentes lenguas. El sistema consiste en crear palabras universales en inglés a partir de la base de datos de WordNet. A continuación esas palabras universales se pasan a lexicógrafos de diferentes países. Cada uno de ellos lee en inglés la palabra universal y entiende el significado que se le otorga.

A continuación le añade la traducción en su lengua materna, sin necesidad de conocer la lengua de destino. Aunque las palabras universales utilizan terminología inglesa, la diferencia de usar directamente el inglés como palabra universal es que el inglés es otra lengua natural y tiene ambigüedad. Al asociársele atributos y restricciones la ambigüedad desaparece y la precisión hacia otras lenguas es muy alta.

De esta forma se construye este diccionario multilingüe. El método ya está experimentado y testado con resultados sorprendentes. La exactitud y fiabilidad de las traducciones realizadas a partir de las palabras universales creadas con WordNet es del 88% en equiparación perfecta.

Sistema original

Se trata de un sistema original respecto a otros métodos lexicográficos, ya que puede generar diccionarios bilingües sin necesidad de expertos que hablen todas las lenguas implicadas. Basta con que sepan inglés con nivel suficiente, además de su lengua materna, para aportar la traducción exacta de la palabra buscada.

Aunque hoy es relativamente sencillo encontrar intérpretes de español e inglés, por ejemplo, es más complicado encontrar traductores entre portugués y búlgaro, dilema que resuelve el sistema desarrollado por los investigadores de la UPM.

Estos diccionarios bilingües basados en las múltiples equivalencias de términos no son útiles solamente para construir diccionarios, sino también para soportar sistemas de búsqueda en diferentes idiomas.

Diccionario multilingüe del patrimonio cultural español

Con este sistema, el Grupo de Validación y Aplicaciones Industriales, que dirige el profesor de la Facultad de Informática Jesús Cardeñosa, elabora un diccionario de términos multilingües para el patrimonio cultural español, por encargo del Ministerio de Cultura, en el marco del Proyecto Patrilex, que estará finalizado en 2008.

El objetivo de este proyecto es la definición de una metodología y desarrollo de herramientas que sustenten la búsqueda documental sobre patrimonio cultural basada en recursos léxicos multilingües.

Para ello se desarrollan herramientas de recursos léxicos en el contexto del Patrimonio Cultural español, consistentes en un tesauro (base de datos) multilingüe sobre el que se definirán relaciones semánticas para la mejor determinación del contexto subyacente a una pregunta.

Un tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

El resultado final será un sistema de búsqueda basado en entradas del usuario mediante palabras clave, capaz de contextualizar la pregunta y de establecer la correspondencia con las palabras equivalentes en otras lenguas.

Ello permitirá por ejemplo escribir una búsqueda en español y obtener documentos en varios idiomas ajustados a los conceptos de la búsqueda, con una precisión inédita en los actuales sistemas multilingües.

Los idiomas para la confección del Tesauro multilingüe serán el español, inglés y ruso, y el entorno real de prueba del sistema será la web de la Subdirección General de Patrimonio, hoy exclusivamente en español. La Metodología hará especial énfasis en la extensibilidad a nuevas lenguas del método seguido, señala la presentación del proyecto.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Sudáfrica y China logran una conexión cuántica satelital récord de casi 13.000 kilómetros 20 marzo, 2025
    Un equipo internacional de científicos ha establecido una conexión satelital cuántica histórica entre Sudáfrica y China, cubriendo una distancia récord de 12.900 kilómetros. Gracias al fenómeno del entrelazamiento cuántico, esta tecnología garantiza comunicaciones absolutamente seguras frente a cualquier intento de espionaje.
    Redacción T21
  • Los tribunales no reconocen derechos de autor a la Inteligencia Artificial 20 marzo, 2025
    Un tribunal de apelaciones en Estados Unidos ha puesto límites a la creatividad de las máquinas: las obras generadas exclusivamente por inteligencia artificial no pueden ser protegidas por derechos de autor. El fallo reafirma que la ley actual requiere la participación humana para garantizar la protección legal de una obra.
    Redacción T21
  • Desvelan la primera luz que encendió el Universo 20 marzo, 2025
    El Telescopio de Cosmología de Atacama (ACT) ha compilado el mapa más detallado que hemos visto hasta hoy del fondo cósmico de microondas, la tenue luz que impregna el Universo desde solo 380.000 años después del Big Bang y cuyos ecos pueden apreciarse en la actualidad. La imagen obtenida es lo más parecido a la […]
    Redacción T21
  • Microsoft e Inait revolucionan la Inteligencia Artificial con cerebros digitales casi humanos 20 marzo, 2025
    Microsoft ha unido fuerzas con la startup suiza Inait para desarrollar sistemas de IA inspirados en el cerebro humano. Esta colaboración busca crear modelos que no solo aprenden de datos, sino que también razonan como el cerebro humano.
    Redacción T21
  • Una prueba de consciencia corporal desafía las visiones tradicionales sobre la cognición animal 19 marzo, 2025
    Los gorilas pueden ser tan conscientes de sí mismos como los chimpancés, según ha comprobado una nueva investigación: luego de realizar una prueba de autoconsciencia corporal bajo parámetros diferentes a las tradicionales, los científicos verificaron que las capacidades cognitivas de estos simios se habían menospreciado hasta hoy.
    Pablo Javier Piacente / T21
  • China plantea la necesidad de etiquetar el contenido generado con IA 19 marzo, 2025
    En colaboración con varios ministerios gubernamentales, la Administración China de Control del Ciberespacio (CAC) ha anunciado que todo el contenido generado por IA en Internet tendrá que ser etiquetado como tal. Sería la forma a través de la cual el gigante asiático se acopla a la idea europea de establecer algún tipo de regulación sobre […]
    Pablo Javier Piacente / T21
  • Escándalo: Elon Musk regala a la Casa Blanca acceso a su servicio de internet satelital Starlink 19 marzo, 2025
    Starlink ha instalado en la Casa Blanca un servicio de Internet satelital paralelo al sistema oficial de telecomunicaciones que suscita dudas sobre su legalidad, abre brechas de seguridad en las comunicaciones secretas y aventaja a las empresas de Elon Musk en el acceso a proyectos oficiales. Polémica.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Los recortes en salud de Trump podrían derivar en 1.400 bebés contagiados con SIDA cada día 19 marzo, 2025
    Los datos de una encuesta internacional sugieren que más de un tercio de las organizaciones que dependían de los fondos de Estados Unidos para combatir el virus de la inmunodeficiencia humana (VIH) ya habían cerrado en febrero: el recorte podría producir que alrededor de 1.400 bebés al día se contagien de SIDA en los sitios […]
    Redacción T21
  • Oxígeno oscuro: un enigmático proceso desafía la fotosíntesis en las profundidades del océano 19 marzo, 2025
    Los científicos han descubierto un proceso biológico completamente nuevo en las profundidades del océano. Conocido como 'producción de oxígeno oscuro', permite a ciertas bacterias generar oxígeno sin necesidad de luz ni aire, desafiando los principios establecidos sobre la fotosíntesis.
    Redacción T21
  • Desvelan qué hace única a la consciencia humana 18 marzo, 2025
    Se ha descubierto por primera vez que las neuronas individuales representan los conceptos que aprendemos, independientemente del contexto. Esto permite a los humanos, a diferencia de otros animales, establecer relaciones más elevadas y abstractas.
    Pablo Javier Piacente / T21