Tendencias21

Usan la Biblia y Wikipedia para desarrollar tecnologías para idiomas minoritarios

Apple’s Siri, el traductor de Google y otras tecnologías para lenguajes han permanecido reservadas durante mucho tiempo para los hablantes del inglés u otras lenguas mayoritarias. Esto podría cambiar porque lingüistas de la Universidad de Copenhague (Dinamarca) han producido tecnología del lenguaje que funciona, al mismo tiempo, para 100 idiomas minoritarios y grandes. Para su desarrollo, se han basado en dos fuentes muy diferentes: versículos bíblicos y artículos de Wikipedia.

Usan la Biblia y Wikipedia para desarrollar tecnologías para idiomas minoritarios

Apple’s Siri, el traductor de Google y otras tecnologías para lenguajes han permanecido reservadas durante mucho tiempo para los hablantes del inglés u otras lenguas mayoritarias. Las personas que hablen galés o gallego, por ejemplo, no podían usarlas en su propio idioma.

Esto podría cambiar porque lingüistas de la Universidad de Copenhague (Dinamarca) han producido tecnología del lenguaje que funciona, al mismo tiempo, para 100 idiomas minoritarios y grandes. Para su desarrollo, se han basado en dos fuentes muy diferentes: versículos bíblicos y artículos de Wikipedia, la gran enciclopedia online.

“Cuando desarrollamos sistemas de traducción automática y motores de búsqueda, por lo general introducimos en la computadora grandes cantidades de textos que contienen información sobre la función y el significado de las palabras. Por razones históricas, estos textos han sido principalmente artículos de periódicos en inglés y otras grandes lenguas. No tenemos acceso a textos similares en lenguas más pequeñas como la de las Islas Feroe, el galés, el gallego y el irlandés, o incluso una lengua africana importante como yoruba, que es hablada por 28 millones de personas”, dice el profesor Anders Søgaard, de la Universidad de Copenhague, en la nota de prensa de ésta.

Anders Søgaard y sus colegas apostaron por buscar textos que hubieran sido traducidos a muchos idiomas, de modo que pudiera transmitirse el conocimiento sobre la gramática de las lenguas grandes al de las pequeñas.

“La Biblia ha sido traducida a más de 1.500 idiomas, incluso la mayoría de los más exóticos y pequeños, y las traducciones son extremadamente conservadoras; los versos tienen una estructura completamente uniforme en los diferentes idiomas, lo que significa que podemos hacer modelos informáticos adecuados incluso para lenguas muy pequeñas, con sólo doscientas páginas de texto bíblico”, explica Søgaard.

Desarrollo de recursos lingüísticos

La enciclopedia en línea hecha por usuarios Wikipedia también ha demostrado ser una fuente muy útil para los investigadores, que utilizan sus textos para desarrollar recursos lingüísticos.
 
Wikipedia contiene más de 35 millones de artículos, pero es el hecho de que por lo menos 129 idiomas estén representados – con más de 10.000 artículos de cada uno- el que hace que los investigadores la encuentren interesante, puesto que muchos artículos se refieren a los mismos conceptos y temas.

“Esto nos permite hacer lo que llamamos “indexación invertida”, lo que significa que se utiliza el concepto que los artículos tratan de describir para describir precisamente las palabras usadas para describirlo”, explica Søgaard.
 
“Si aparece la palabra gafas en la entrada de la Wikipedia sobre Harry Potter, y la palabra alemana Brille se utiliza en la entrada alemana equivalente, es muy probable que las dos palabras se representen de forma similar en nuestros modelos de sistemas de traducción automática. Y la ventaja de este modelo es que puede ser aplicado a 100 idiomas diferentes al mismo tiempo, incluyendo a muchos idiomas a los que previamente se les han negado los recursos de tecnología que usamos todos los días”.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Los desiertos están amenazados por el agua 11 septiembre, 2024
    La mayor amenaza de los desiertos no es la sequía, sino las inundaciones a gran escala, según concluye un nuevo estudio. Los científicos revelaron que las áreas áridas enfrentan una alarmante vulnerabilidad debido a la creciente frecuencia de eventos climáticos extremos, relacionados con el cambio climático. Esto se debe a que las áreas desérticas cercanas […]
    Pablo Javier Piacente
  • China planea construir una base en el polo sur de la Luna para 2035 11 septiembre, 2024
    China llevará adelante un plan para diseñar un sistema escalable y sostenible en la Luna, capaz de operaciones robóticas a largo plazo, con participación humana a corto plazo, que incluirá una red de nodos interconectados. Aunque el proyecto de Estación Internacional de Investigación Lunar (ILRS) estaría concluido sobre 2050, el gigante asiático piensa poner en […]
    Pablo Javier Piacente
  • La extinción provocada de una especie inspiró a la paloma de la paz de Picasso 11 septiembre, 2024
    Hay muchos ejemplos de extinciones que hemos provocado por ambiciones económicas que hoy todavía lamentamos. Una de esas especies extinta inspiró la paloma de la paz de Picasso e impide que hoy se puedan fabricar las míticas guitarras Fender empleadas por Bruce Springsteen, The Rolling Stones o Jimi Hendrix. ¿Qué será de nosotros si consumamos […]
    Eduardo Costas | Catedrático de la UCM y Académico de Farmacia
  • La contaminación del aire aumenta la frecuencia de rayos y relámpagos 10 septiembre, 2024
    Un grupo de científicos analizó datos de más de 500.000 tormentas eléctricas en el transcurso de 12 años: descubrieron que tener partículas más finas en el aire, como aerosoles y otros contaminantes ligados a la actividad humana, está directamente relacionado con un mayor número de rayos y relámpagos. Además, incrementa en general la intensidad de […]
    Pablo Javier Piacente
  • La electricidad podría producir oro 10 septiembre, 2024
    Un nuevo estudio sugiere que la formación de pepitas de oro podría ser impulsada por un fenómeno eléctrico único: la piezoelectricidad es un proceso que resulta de la polarización eléctrica que ocurre dentro de sustancias, incluidos cristales como el cuarzo, cuando se colocan bajo tensión mecánica. Esto explicaría la formación de enormes pepitas de oro […]
    Pablo Javier Piacente
  • La IA es capaz de crear falsos recuerdos que se prolongan en el tiempo 10 septiembre, 2024
    La Inteligencia Artificial puede amplificar los falsos recuerdos, según estudio del MIT. Altera la memoria de los testigos de manera más pronunciada que los métodos tradicionales, lo que plantea preguntas fundamentales sobre la naturaleza de la memoria, la identidad y la realidad misma.
    Redacción T21
  • Los microbios más antiguos forjaron nuestro sistema inmunológico 9 septiembre, 2024
    Los microbios que surgieron hace miles de millones de años pueden haber hecho que nuestro sistema inmunológico evolucionara hasta su capacidad actual: una investigación ha comprobado que dos de nuestras defensas más importantes contra los virus han persistido desde antes del surgimiento de la vida compleja en la Tierra. Se trata de dos proteínas que desempeñan […]
    Pablo Javier Piacente
  • Los mosquitos aprovechan el infrarrojo para elegir a sus víctimas humanas 9 septiembre, 2024
    Los mosquitos usan la detección infrarroja en sus antenas para rastrear a sus presas, según un nuevo estudio. Los investigadores hallaron que los insectos usan un sentido desconocido hasta hoy, basado en la identificación de señales en el rango infrarrojo (IR) del espectro electromagnético, para ubicar el mejor sitio para picar: el sistema natural presenta […]
    Pablo Javier Piacente
  • Una misión científica pionera estudiará los rasgos genéticos únicos de los indígenas latinoamericanos 9 septiembre, 2024
    Este mes comienza una misión científica internacional a la selva amazónica que colocará a Latinoamérica en el foco del mapa genómico mundial. Coliderada por el científico español Manuel Corpas, visitará comunidades indígenas remotas con el objetivo de explorar sus adaptaciones genéticas únicas y comprender cómo se pueden traducir en medicina de precisión.
    Alejandro Sacristán
  • Google usa la IA para controlar los semáforos de 12 grandes ciudades 8 septiembre, 2024
    Google ha puesto en marcha, de forma experimental, un proyecto que optimiza el tráfico y reduce la contaminación en 12 grandes ciudades, regulando el encendido y apagado de los semáforos aplicando la Inteligencia Artificial.
    Redacción T21