Tendencias21
Primer diccionario multilingüe basado en palabras universales

Primer diccionario multilingüe basado en palabras universales

Un sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos ha sido desarrollado por investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid. Con este sistema, es posible traducir automáticamente una palabra a varios idiomas con una precisión y exactitud del 88%. El sistema ha aplicado un algoritmo a la base de datos WordNet de la Universidad de Princeton, para crear unas palabras universales unívocas sobre las que construir el sistema de traducción. De esta forma, es posible buscar el significado de una palabra en varios idiomas y seleccionar la traducción más apropiada en la propia lengua. La primera aplicación será para el patrimonio cultural español y estará concluida en 2008. Por Eduardo Martínez.

Primer diccionario multilingüe basado en palabras universales

Investigadores de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un original sistema que permite construir diccionarios multilingües basados en múltiples equivalencias de términos a partir de las así llamadas palabras universales, con una fiabilidad y exactitud del 88% hasta el momento.

El sistema se basa por un lado en la base de datos WordNet, de la Universidad de Princeton. WordNet es una base de datos léxica desarrollada por lingüistas del laboratorio de ciencias cognitivas de la mencionada universidad.

Su finalidad es inventariar, clasificar y relacionar de diferente forma, el contenido semántico y léxico de la lengua inglesa. WordNet se presenta como una base de datos electrónica que puede descargarse a través de Internet.

La base fundamental de WordNet es el synset (sinónimo set), grupo de palabras intercambiables que denotan un sentido o uso particular. Cada synset es uno de los significados diferentes que puede tener una palabra, descrita de forma breve y concisa.

WordNet dispone de un léxico de más de 200.000 términos perfectamente estructurados y definidos dentro de la lengua inglesa, que constituye uno de los pilares del sistema ideado por los investigadores de la Facultad de Informática de la UPM.

El otro pilar del sistema lo constituyen las palabras universales. El concepto palabra universal tiene su origen en el Proyecto UNL (Universal Networking Language), que tiene como cometido eliminar las barreras de la diversidad lingüística creando un medio de intercambio de información que permita comunicarse en su propio idioma.

Palabras universales

Tal como explica al respecto el Centro de Lengua Española del Proyecto UNL, uno de los conceptos más básicos del UNL es el de palabra universal. El concepto de palabra universal indica que se trata de una palabra, tomada de la lengua inglesa, a la que se le elimina su ambigüedad mediante la adición de una serie de atributos y restricciones.

La palabra inglesa más los atributos y restricciones es a lo que se denomina palabra universal, ya que tiene correspondencia con sus homónimas en cualquier otra lengua. Debido a su exactitud, uno de los usos de las palabras universales es la producción de forma sistemática de diccionarios multilingües.

Aplicando un algoritmo basado en modelos computacionales a la base de datos de WordNet, los investigadores de la Facultad de Informática de la UPM han expandido los léxicos de la lengua inglesa, convirtiéndolos así en palabras universales susceptibles de ser utilizadas en la producción de diccionarios multilingües.

A continuación, estos ingenieros han creado un Diccionario de Palabras Universales que permite asociar las palabras de cada lengua con su correspondiente palabra universal sin ambigüedad. De esta forma, han desarrollado una herramienta que permite a una persona poner una palabra en su idioma original y seleccionar la correspondiente en otro idioma, de entre un conjunto de términos escritos en su propia lengua, algo inédito en la historia del multilingüismo.

Cómo funciona

El objetivo final es construir diccionarios muy precisos entre diferentes lenguas. El sistema consiste en crear palabras universales en inglés a partir de la base de datos de WordNet. A continuación esas palabras universales se pasan a lexicógrafos de diferentes países. Cada uno de ellos lee en inglés la palabra universal y entiende el significado que se le otorga.

A continuación le añade la traducción en su lengua materna, sin necesidad de conocer la lengua de destino. Aunque las palabras universales utilizan terminología inglesa, la diferencia de usar directamente el inglés como palabra universal es que el inglés es otra lengua natural y tiene ambigüedad. Al asociársele atributos y restricciones la ambigüedad desaparece y la precisión hacia otras lenguas es muy alta.

De esta forma se construye este diccionario multilingüe. El método ya está experimentado y testado con resultados sorprendentes. La exactitud y fiabilidad de las traducciones realizadas a partir de las palabras universales creadas con WordNet es del 88% en equiparación perfecta.

Sistema original

Se trata de un sistema original respecto a otros métodos lexicográficos, ya que puede generar diccionarios bilingües sin necesidad de expertos que hablen todas las lenguas implicadas. Basta con que sepan inglés con nivel suficiente, además de su lengua materna, para aportar la traducción exacta de la palabra buscada.

Aunque hoy es relativamente sencillo encontrar intérpretes de español e inglés, por ejemplo, es más complicado encontrar traductores entre portugués y búlgaro, dilema que resuelve el sistema desarrollado por los investigadores de la UPM.

Estos diccionarios bilingües basados en las múltiples equivalencias de términos no son útiles solamente para construir diccionarios, sino también para soportar sistemas de búsqueda en diferentes idiomas.

Diccionario multilingüe del patrimonio cultural español

Con este sistema, el Grupo de Validación y Aplicaciones Industriales, que dirige el profesor de la Facultad de Informática Jesús Cardeñosa, elabora un diccionario de términos multilingües para el patrimonio cultural español, por encargo del Ministerio de Cultura, en el marco del Proyecto Patrilex, que estará finalizado en 2008.

El objetivo de este proyecto es la definición de una metodología y desarrollo de herramientas que sustenten la búsqueda documental sobre patrimonio cultural basada en recursos léxicos multilingües.

Para ello se desarrollan herramientas de recursos léxicos en el contexto del Patrimonio Cultural español, consistentes en un tesauro (base de datos) multilingüe sobre el que se definirán relaciones semánticas para la mejor determinación del contexto subyacente a una pregunta.

Un tesauro es una lista de términos que pueden estar constituidos por más de una palabra, relacionados entre sí jerárquicamente (términos generales y subordinados), utilizadas para la indización (con fines de archivo) y la recuperación de documentos.

El resultado final será un sistema de búsqueda basado en entradas del usuario mediante palabras clave, capaz de contextualizar la pregunta y de establecer la correspondencia con las palabras equivalentes en otras lenguas.

Ello permitirá por ejemplo escribir una búsqueda en español y obtener documentos en varios idiomas ajustados a los conceptos de la búsqueda, con una precisión inédita en los actuales sistemas multilingües.

Los idiomas para la confección del Tesauro multilingüe serán el español, inglés y ruso, y el entorno real de prueba del sistema será la web de la Subdirección General de Patrimonio, hoy exclusivamente en español. La Metodología hará especial énfasis en la extensibilidad a nuevas lenguas del método seguido, señala la presentación del proyecto.

Eduardo Martínez de la Fe

Eduardo Martínez de la Fe, periodista científico, es el Editor de Tendencias21.

Hacer un comentario

RSS Lo último de Tendencias21

  • Los huracanes se están volviendo tan fuertes que ya no existen categorías para clasificarlos 7 febrero, 2024
    Cinco tormentas en la última década tuvieron velocidades de viento que pertenecen a una hipotética categoría 6 en la escala de huracanes Saffir-Simpson: el fenómeno obligaría a los científicos a crear una nueva clasificación, capaz de reflejar la virulencia de los huracanes en la actualidad. Las causas principales del fenómeno tienen su origen en el […]
    Pablo Javier Piacente
  • Un asteroide habría explotado sobre la Antártida hace unos 2,5 millones de años 7 febrero, 2024
    Un asteroide se desintegró sobre el continente antártico hace aproximadamente 2,5 millones de años: la evidencia proviene de un análisis químico de más de 100 pequeños trozos de roca extraterrestre, que se han preservado dentro de las enormes capas de hielo. Hasta el momento, solo se conocen otros dos eventos de explosiones aéreas antiguas en […]
    Pablo Javier Piacente
  • Crean la primera niña de inteligencia artificial del mundo 7 febrero, 2024
    La primera niña IA del mundo ha sido creada por científicos chinos, que la han dotado de emociones e intelecto y de la capacidad de aprender de forma autónoma. Se comporta como si tuviera tres o cuatro años y representa un avance significativo para el campo de la inteligencia artificial general.
    Redacción T21
  • Oponerse a la regulación de los pesticidas no es la solución al problema de los agricultores 7 febrero, 2024
    Los agricultores que se movilizan en España y Europa se oponen con firmeza a las nuevas regulaciones europeas en materia de pesticidas, lo que representa una amenaza mayor para la salud pública que tener una central nuclear al lado de casa: estos químicos han costado miles de vidas y enfermos crónicos, al tiempo que han […]
    Eduardo Costas | Catedrático de la UCM y Académico de Farmacia
  • El arte existió antes del surgimiento de los humanos modernos 6 febrero, 2024
    Nuevas investigaciones sugieren que nuestros parientes humanos arcaicos, como los neandertales, ya contaban con las capacidades cognitivas para desarrollar arte: el hallazgo de ejemplos cada vez más antiguos de expresión artística en el registro arqueológico confirmaría esta hipótesis. Sin embargo, aún se discute si estas manifestaciones creativas pueden catalogarse como arte.
    Pablo Javier Piacente
  • Descubren una nueva supertierra que podría ser un mundo habitable 6 febrero, 2024
    Un planeta extrasolar del tipo supertierra, denominado TOI-715 b y aproximadamente una vez y media más ancho que la Tierra, podría ser capaz de albergar vida: orbita dentro de la zona habitable de una enana roja, a escasa distancia de nuestro planeta. Además, podría estar acompañado de otro cuerpo planetario, con un tamaño casi idéntico al […]
    Pablo Javier Piacente
  • Imprimen en 3D el primer tejido cerebral humano funcional 6 febrero, 2024
    Científicos de la Universidad de Wisconsin-Madison han impreso en 3D tejido cerebral que crece y funciona como el tejido cerebral humano. Las neuronas impresas se comunican entre ellas como si estuvieran en un tejido biológico. Este desarrollo perfecciona la técnica de los organoides cerebrales.
    Eduardo Martínez de la Fe
  • La brecha ecológica de género lastra la solución de la crisis planetaria 6 febrero, 2024
    Las mujeres son las más afectadas por el cambio climático y las que más tienen que aportar a la solución de la crisis planetaria. Aunque siguen excluidas mayoritariamente de los ámbitos de decisión medioambientales y de la ciencia del clima, no callan y actúan. Esta es su historia.
    Alicia Domínguez y Eduardo Costas.
  • Crean una máquina del tiempo evolutiva con los genomas de 51 especies de vertebrados 5 febrero, 2024
    Los investigadores acaban de mapear los genomas de 51 especies animales, incluyendo gatos, delfines, canguros, pingüinos, tiburones y tortugas: el descubrimiento tendría enormes implicaciones para comprender la salud y la evolución humanas, además de crear una "máquina del tiempo evolutiva".
    Pablo Javier Piacente
  • Nanopartículas en rocas antiguas esconden los secretos de la vida 5 febrero, 2024
    Los científicos han descubierto que nanopartículas presentes en algunas de las rocas más antiguas del mundo ocultan pistas sobre los orígenes de la vida: los hallazgos podrían explicar por qué el fósforo se convirtió en un componente importante de la vida y cómo las moléculas se unieron por primera vez para formar ARN primitivo, en […]
    Pablo Javier Piacente