Tendencias21
Primer diccionario multilingüe basado en palabras universales

Primer diccionario multilingüe basado en palabras universales

Un sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid. Con este sistema, es posible traducir automáticamente una palabra a varios idiomas con una precisión y exactitud del 88%. El sistema ha aplicado un algoritmo a la base de datos WordNet de la Universidad de Princeton, para crear unas palabras universales unívocas sobre las que construir el sistema de traducción. De esta forma, es posible buscar el significado de una palabra en varios idiomas y seleccionar la traducción más apropiada en la propia lengua. La primera aplicación será para el patrimonio cultural español y estará concluida en 2008. Por Eduardo Martínez.

Primer diccionario multilingüe basado en palabras universales

Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un original sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos a partir de las así llamadas palabras universales, con una fiabilidad y exactitud del 88% hasta el momento.

El sistema se basa por un lado en la base de datos WordNet, de la Universidad de Princeton. WordNet es una base de datos léxica desarrollada por lingüistas del laboratorio de ciencias cognitivas de la mencionada universidad.

Su finalidad es inventariar, clasificar y relacionar de diferente forma, el contenido semántico y léxico de la lengua inglesa. WordNet se presenta como una base de datos electrónica que puede descargarse a través de Internet.

La base fundamental de WordNet es el synset (sinónimo set), grupo de palabras intercambiables que denotan un sentido o uso particular. Cada synset es uno de los significados diferentes que puede tener una palabra, descrita de forma breve y concisa.

WordNet dispone de un léxico de más de 200.000 términos perfectamente estructurados y definidos dentro de la lengua inglesa, que constituye uno de los pilares del sistema ideado por los investigadores de la Facultad de Informática de la UPM.

El otro pilar del sistema lo constituyen las palabras universales. El concepto palabra universal tiene su origen en el Proyecto UNL (Universal Networking Language), que tiene como cometido eliminar las barreras de la diversidad lingüística creando un medio de intercambio de información que permita comunicarse en su propio idioma.

Palabras universales

Tal como explica al respecto el Centro de Lengua Española del Proyecto UNL, uno de los conceptos más básicos del UNL es el de palabra universal. El concepto de palabra universal indica que se trata de una palabra, tomada de la lengua inglesa, a la que se le elimina su ambigüedad mediante la adición de una serie de atributos y restricciones.

La palabra inglesa más los atributos y restricciones es a lo que se denomina palabra universal, ya que tiene correspondencia con sus homónimas en cualquier otra lengua. Debido a su exactitud, uno de los usos de las palabras universales es la producción de forma sistemática de diccionarios multilingües.

Aplicando un algoritmo basado en modelos computacionales a la base de datos de WordNet, los investigadores de la Facultad de Informática de la UPM han expandido los léxicos de la lengua inglesa, convirtiéndolos así en palabras universales susceptibles de ser utilizadas en la producción de diccionarios multilingües.

A continuación, estos ingenieros han creado un Diccionario de Palabras Universales que permite asociar las palabras de cada lengua con su correspondiente palabra universal sin ambigüedad. De esta forma, han desarrollado una herramienta que permite a una persona poner una palabra en su idioma original y seleccionar la correspondiente en otro idioma, de entre un conjunto de términos escritos en su propia lengua, algo inédito en la historia del multilingüismo.

Cómo funciona

El objetivo final es construir diccionarios muy precisos entre diferentes lenguas. El sistema consiste en crear palabras universales en inglés a partir de la base de datos de WordNet. A continuación esas palabras universales se pasan a lexicógrafos de diferentes países. Cada uno de ellos lee en inglés la palabra universal y entiende el significado que se le otorga.

A continuación le añade la traducción en su lengua materna, sin necesidad de conocer la lengua de destino. Aunque las palabras universales utilizan terminología inglesa, la diferencia de usar directamente el inglés como palabra universal es que el inglés es otra lengua natural y tiene ambigüedad. Al asociársele atributos y restricciones la ambigüedad desaparece y la precisión hacia otras lenguas es muy alta.

De esta forma se construye este diccionario multilingüe. El método ya está experimentado y testado con resultados sorprendentes. La exactitud y fiabilidad de las traducciones realizadas a partir de las palabras universales creadas con WordNet es del 88% en equiparación perfecta.

Sistema original

Se trata de un sistema original respecto a otros métodos lexicográficos, ya que puede generar diccionarios bilingües sin necesidad de expertos que hablen todas las lenguas implicadas. Basta con que sepan inglés con nivel suficiente, además de su lengua materna, para aportar la traducción exacta de la palabra buscada.

Aunque hoy es relativamente sencillo encontrar intérpretes de español e inglés, por ejemplo, es más complicado encontrar traductores entre portugués y búlgaro, dilema que resuelve el sistema desarrollado por los investigadores de la UPM.

Estos diccionarios bilingües basados en las múltiples equivalencias de términos no son útiles solamente para construir diccionarios, sino también para soportar sistemas de búsqueda en diferentes idiomas.

Diccionario multilingüe del patrimonio cultural español

Con este sistema, el Grupo de Validación y Aplicaciones Industriales, que dirige el profesor de la Facultad de Informática Jesús Cardeñosa, elabora un diccionario de términos multilingües para el patrimonio cultural español, por encargo del Ministerio de Cultura, en el marco del Proyecto Patrilex, que estará finalizado en 2008.

El objetivo de este proyecto es la definición de una metodología y desarrollo de herramientas que sustenten la búsqueda documental sobre patrimonio cultural basada en recursos léxicos multilingües.

Para ello se desarrollan herramientas de recursos léxicos en el contexto del Patrimonio Cultural español, consistentes en un tesauro (base de datos) multilingüe sobre el que se definirán relaciones semánticas para la mejor determinación del contexto subyacente a una pregunta.

Un tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

El resultado final será un sistema de búsqueda basado en entradas del usuario mediante palabras clave, capaz de contextualizar la pregunta y de establecer la correspondencia con las palabras equivalentes en otras lenguas.

Ello permitirá por ejemplo escribir una búsqueda en español y obtener documentos en varios idiomas ajustados a los conceptos de la búsqueda, con una precisión inédita en los actuales sistemas multilingües.

Los idiomas para la confección del Tesauro multilingüe serán el español, inglés y ruso, y el entorno real de prueba del sistema será la web de la Subdirección General de Patrimonio, hoy exclusivamente en español. La Metodología hará especial énfasis en la extensibilidad a nuevas lenguas del método seguido, señala la presentación del proyecto.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Las ganas de postre surgen en el cerebro cuando hemos comido bien 14 febrero, 2025
    Los investigadores demostraron que un grupo de células nerviosas, denominadas neuronas POMC, son las responsables de mantener nuestras ganas de comer postre, a pesar de haber disfrutado de un almuerzo o una cena suculenta que nos ha saciado. En roedores y humanos, estas neuronas se activan tan pronto como se tiene acceso al azúcar, facilitando […]
    Pablo Javier Piacente / T21
  • ¿ChatGPT reemplazará a los psicoterapeutas en el futuro? 14 febrero, 2025
    Los científicos descubrieron que las respuestas producidas por el popular sistema ChatGPT eran generalmente mejor valoradas que las entregadas por un psicólogo humano en el marco de una situación de terapia de pareja: eran más largas y contenían más sustantivos y adjetivos, aportando una mayor contextualización.
    Pablo Javier Piacente / T21
  • Una bacteria podría resolver los crímenes ligados a agresiones sexuales 14 febrero, 2025
    Una especie bacteriana única, conocida como “sexoma”, se transfiere entre individuos durante las relaciones sexuales. Estas firmas microbianas podrían servir como evidencia forense, incluso cuando no existan marcadores de ADN tradicionales, transformándose en una herramienta clave para la resolución de delitos que involucren agresiones sexuales.
    Redacción T21
  • ¿Será capaz Europa de subirse al tren de la Inteligencia Artificial? 14 febrero, 2025
    Europa va a invertir 309.000 millones de euros en Inteligencia artificial, muy lejos de los 500.000 euros que se propone Estados Unidos, mediante una iniciativa público-privada que parece más un ideal que un plan de acción realista. De momento.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Descubren el lugar exacto dónde la vida comenzó a desarrollarse en la Tierra primitiva 13 febrero, 2025
    Científicos estadounidenses concluyen en un nuevo estudio que los primeros microorganismos que se adaptaron de un entorno prehistórico con poco oxígeno al que existe en la actualidad lo lograron en ambientes semejantes a los enormes géiseres del actual Parque Nacional de Yellowstone, ubicado en el oeste de Estados Unidos, hace aproximadamente 2.400 millones de años.
    Pablo Javier Piacente / T21
  • Comprobado en ratones: el estrés intensivo provoca sordera 13 febrero, 2025
    Los resultados de un nuevo estudio muestran que el estrés repetido podría cambiar la forma en que percibimos y respondemos al mundo que nos rodea: en roedores, los científicos comprobaron que se producen cambios en la forma en que el cerebro procesa el sonido, disminuyendo la capacidad para percibir los ruidos más intensos.
    Pablo Javier Piacente / T21
  • El neutrino que atravesó el Mediterráneo abre una nueva ventana energética al Universo 13 febrero, 2025
    Los científicos afirman que la fuente de una partícula de alta energía que atravesó el mar Mediterráneo en 2023 es todavía un enigma, abriendo un escenario desconocido de la energía cósmica. El destello de luz identificado a 3,5 kilómetros de profundidad ha dejado ver la presencia de un visitante cósmico sin precedentes: un neutrino con […]
    Redacción T21
  • La ciencia llama a la resistencia ante Trump 13 febrero, 2025
    La reconocida revista Science ha hecho un llamamiento a la comunidad científica para resistir a los recortes a los Institutos Nacionales de Salud (NIH) planeados por el presidente estadounidense Donald Trump.
    Redacción T21
  • La IA alcanza el Modo Dios: da forma a la realidad percibida por los usuarios 13 febrero, 2025
    El desafío que plantea la IA no es la aparición de una inteligencia superior que opere en el mismo mundo en el que operamos nosotros, sino la creación de nuevos mundos que reemplacen al nuestro. La batalla por el mundo del mañana es preeminentemente una batalla geopolítica, según un nuevo libro del politólogo Bruno Maçães.
    Redacción T21
  • Confirmado: la música calma a las fieras y reduce el dolor 12 febrero, 2025
    Una nueva investigación comprueba un antiguo dicho popular: la música puede calmar a las fieras y reducir el dolor, siempre y cuando se encuentre al ritmo correcto. El alivio del dolor se concreta cuando se reproduce música a un ritmo que se alinea con el tempo natural de una persona.
    Pablo Javier Piacente / T21