Tendencias21

Wikipedia crea un sistema que multiplica la creación de artículos en las diversas lenguas

Investigadores de Stanford (EE.UU.) y la Fundación Wikimedia han desarrollado un sistema automático que recomienda a los editores de las diversas ediciones de la Wikipedia artículos que faltan en sus propias lenguas, pero que están en lenguas que conocen y que por tanto pueden tomar como referencia. Con ese sistema se duplica o incluso triplica la velocidad de creación de artículos. Por Carlos Gómez Abajo.

Wikipedia crea un sistema que multiplica la creación de artículos en las diversas lenguas

Cada día, gente de todo el mundo visita alguna de las cerca de 300 ediciones de Wikipedia, buscando a través de millones de artículos escritos por decenas de miles de editores voluntarios que construyen y mantienen esta enciclopedia libre.

La mayoría de los visitantes buscan artículos escritos en inglés o alguna de las otras lenguas habladas que dan cuenta de la gran mayoría de los 36 millones de entradas de Wikipedia. Pero dado que más de la mitad de la población mundial es monolingüe, existen lagunas en el conocimiento de una versión en idioma local a otra.

Para ayudar a los editores de diferentes comunidades lingüísticas a identificar importantes artículos que faltan, científicos de la computación de la Universidad Stanford (California, EE.UU.) y la Fundación Wikimedia han creado una herramienta de recomendación que identifica los artículos más importantes que aún no están disponibles en un determinado idioma.

Los editores pueden utilizar estas recomendaciones y, si son multilingües, buscar un artículo en una segunda lengua que les sea familiar u otro tipo de ayuda con el fin de traducir el artículo para los lectores locales de Wikipedia.

De este modo, el sistema primero identifica a un editor en Madagascar que se interesa por la climatología y lee y escribe en malgache y francés, y luego le recomienda trabajar en un artículo sobre El Niño, que está ausente de la Wikipedia malgache. De esta manera el editor puede crear un artículo para personas de este país insular que explica cómo puede influir El Niño en las precipitaciones, lo cual a su vez afecta a la agricultura y las inundaciones.

«Como investigadores universitarios, buscamos proyectos con impacto en el mundo real», dice Jure Leskovec, profesor asistente de ciencias de la computación en Stanford, en la información de ésta. «¿Qué podría tener más impacto que la democratización del acceso al conocimiento?»

Los científicos de la Fundación Wikimedia Ellery Wulczyn y Leila Zia y el estudiante de posgrado de Stanford Robert West completan el equipo de colaboradores.

«Wikipedia tiene enormes cantidades de datos sobre artículos en diferentes idiomas y las relaciones entre ellos», dijo West, doctorando en ciencias de la computación. «Nuestro objetivo era utilizar esos datos para diseñar un sistema que animara a los editores a crear los artículos más importantes que faltan.»

El proceso

Los investigadores comenzaron mediante la creación de listas de todos los artículo de cada idioma, y ​​luego cruzaron estas listas para determinar cuáles son los artículos que faltaban en qué idiomas. Luego, los investigadores estimaron la importancia de cada artículo faltante basándose en la relevancia cultural y geográfica. La idea era clasificar el valor de la creación de cualquier artículo dado que falta en ese idioma en relación con todos los demás artículos que faltan.

«Tuvimos que crear un sistema de clasificación que fuera significativo para los editores de diferentes comunidades culturales y lingüísticas porque Wikipedia está conformada por las opciones de los editores», dice Zia.

Los investigadores plantearon la hipótesis de que un sistema que predijera con exactitud la popularidad de los artículos que faltan atraería a los editores sugiriéndoles que sus esfuerzos voluntarios podrían ofrecer mayor valor a sus comunidades lingüísticas y, presumiblemente, darles mayor satisfacción personal.

Para probar esta premisa, los investigadores diseñaron un complejo experimento. Comenzaron con los 4,9 millones de artículos que existían en la Wikipedia en inglés, y encontraron aquellos que faltaban con respecto a los 1,6 millones de artículos de la Wikipedia en francés.

Luego, los investigadores eligieron los 300.000 artículos más importantes que estaban en la inglesa y faltaban en la francesa. Estos artículos fueron divididos aleatoriamente en tres grupos de 100.000 artículos cada uno y distribuidos a los editores seleccionados.

El quid del experimento incluyó dos grupos de 6.000 editores que habían hecho al menos una edición en las Wikipedias inglesa y francesa en los 12 meses anteriores al experimento. El 25 de junio de 2015, cada uno de estos editores recibió un correo electrónico que le informaba de que faltaban cinco artículos importantes y le sugería que sería un servicio a la comunidad que tradujera uno del inglés al francés.

En un grupo, las cinco opciones fueron asignadas al azar de la lista maestra de artículos importantes que faltaban de la Wikipedia francesa.

Para el segundo grupo, las cinco opciones también fueron extraídas de una lista separada de importantes artículos que faltaban, pero también estaban en sintonía con los presuntos intereses de cada editor, basándose en los artículos que cada uno había editado en el pasado.

Un mes después de enviar sus mensajes de correo electrónico, los investigadores evaluaron la creación de artículos, y encontraron que simplemente podían duplicar la tasa de creación de artículos recomendando artículos al azar. En el segundo grupo se triplicó.

Sobre la base de estos resultados, la Fundación Wikimedia ha desarrollado una herramienta experimental donde los editores pueden encontrar lagunas en la Wikipedia de su idioma local y obtener referencias en otro idioma que les sea familiar.

Arte

Mientras, ha dado comienzo una competición para traducir y publicar artículos en Wikipedia sobre historia del arte europea, organizado por Europeana, la biblioteca digital europea de acceso libre.

Los Ministerios de Cultura de cada nación de la Unión Europea han seleccionado 10 obras de arte de gran valor de los museos de su país, informa la Fundación Wikimedia en su blog. Estas 300 obras van desde la escultura contemporánea irlandesa al arte de cueva español, pasando por pinturas de paisajes de Letonia y manuscritos iluminados de Bulgaria.

Referencia bibliográfica:

Ashwin Paranjape, Robert West, Leila Zia, Jure Leskovec: Improving Website Hyperlink Structure Using Server Logs. arXiv:1512.07258

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • El núcleo de la Tierra podría estar a punto de estallar: habría volcanes a 5.000 kilómetros de profundidad 11 febrero, 2025
    Un estudio revela que el núcleo interno de la Tierra está cambiando de forma misteriosa y aún incierta: los científicos han desvelado que el núcleo interno giratorio no solamente modifica su velocidad de rotación, sino que también parece cambiar de forma, con variaciones que se manifiestan a través de las ondas acústicas que se propagan […]
    Redacción T21
  • Una exposición muestra el camino a la extinción de millones de seres vivos marinos conscientes 11 febrero, 2025
    Ecos del océano, una exposición que une ciencia, tecnología, arte y creatividad, muestra los ecos que surgen en la mente de una ballena cuando tropieza con la contaminación sonora generada por la actividad humana. Una experiencia inmersiva invita a preservar el equilibrio entre el ser humano, la naturaleza y el resto de especies que conviven en […]
    Alejandro Sacristán (enviado especial).
  • La IA ya supera a los humanos en el fraude digital 10 febrero, 2025
    Un nuevo estudio destaca la creciente sofisticación de los grandes modelos de lenguaje (LLM), la estructura detrás de los chatbots de IA más conocidos, para crear estrategias de fraude cibernético. Estos modelos pueden diseñar campañas de phishing hiperpersonalizadas y persuasivas, a una fracción del coste y el tiempo que requieren los métodos tradicionales desarrollados por […]
    Pablo Javier Piacente / T21
  • Alerta: Creciente riesgo de que restos de cohetes afecten zonas de intenso tráfico aéreo 10 febrero, 2025
    Un nuevo estudio publicado en la revista Scientific Reports advierte sobre el aumento del peligro que representa la basura espacial para la aviación comercial. La investigación, realizada por científicos de la Universidad de Columbia Británica, en Canadá, concluye que existe una probabilidad anual del 26% de que los desechos de cohetes espaciales reingresen a la […]
    Pablo Javier Piacente / T21
  • Los cantos de las ballenas son similares al lenguaje humano: puedes comprobarlo aquí 10 febrero, 2025
    Los científicos han descubierto la misma estructura o conjunto de patrones rítmicos que son un sello distintivo del lenguaje humano en el canto de las ballenas jorobadas: los hallazgos muestran que incluso especies tan disímiles evolutivamente pueden compartir sistemas de comunicación que se transmiten culturalmente de generación en generación.
    Redacción T21
  • El Rapto del Mundo: la democracia naufraga en la era del ultraliberalismo, pero no ha sido conquistada 10 febrero, 2025
    Lo que está pasando con la democracia puede compararse con el mito del rapto de Europa: seducida con engaños, se ha adentrado en un proceso de erosión de las instituciones, polarización social y desregulación económica que la aleja de su inspiración humanista. ¿Estamos presenciando el nacimiento de un nuevo orden político global?
    EDUARDO MARTÍNEZ DE LA FE/T21
  • La IA puede ser más creativa que los seres humanos 9 febrero, 2025
    La IA puede superar a la mayoría de los humanos en tareas de pensamiento creativo, según un nuevo estudio: los chatbots de IA de modelo de lenguaje grande (LLM) pueden superar al humano promedio en una tarea de pensamiento creativo en la que el participante idea usos alternativos para objetos cotidianos, un ejemplo en el […]
    Pablo Javier Piacente
  • El primer conectoma del cerebro de un insecto revoluciona la neurociencia 8 febrero, 2025
    Los científicos han conseguido por primera vez establecer el diagrama de las conexiones sinápticas del cerebro de un insecto que tiene 100.000 neuronas, toda una proeza para comprender mejor al cerebro humano y potenciar la Inteligencia Artificial.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Producir energía limpia cultivada en hojas: ¿el camino hacia la sostenibilidad energética? 7 febrero, 2025
    Los científicos han desarrollado “nanoflores” de cobre que imitan la fotosíntesis, ofreciendo una nueva forma de convertir el dióxido de carbono en fuentes de combustible y productos químicos, transformando potencialmente las estrategias a través de las cuales generamos energía limpia.
    Pablo Javier Piacente / T21
  • Los perros que son capaces de aprender permanecen jóvenes por más tiempo 7 febrero, 2025
    Los telómeros cumplen un papel crucial en la protección de los cromosomas: con el envejecimiento y la oxidación celular, se van acortando y promueven el deterioro de distintas funciones orgánicas. Un nuevo estudio ha demostrado que los perros domésticos (Canis lupus familiaris) que se mantienen entrenados y adquieren permanentemente nuevas capacidades preservan por más tiempo […]
    Pablo Javier Piacente / T21