Tendencias21

Wikipedia crea un sistema que multiplica la creación de artículos en las diversas lenguas

Investigadores de Stanford (EE.UU.) y la Fundación Wikimedia han desarrollado un sistema automático que recomienda a los editores de las diversas ediciones de la Wikipedia artículos que faltan en sus propias lenguas, pero que están en lenguas que conocen y que por tanto pueden tomar como referencia. Con ese sistema se duplica o incluso triplica la velocidad de creación de artículos. Por Carlos Gómez Abajo.

Wikipedia crea un sistema que multiplica la creación de artículos en las diversas lenguas

Cada día, gente de todo el mundo visita alguna de las cerca de 300 ediciones de Wikipedia, buscando a través de millones de artículos escritos por decenas de miles de editores voluntarios que construyen y mantienen esta enciclopedia libre.

La mayoría de los visitantes buscan artículos escritos en inglés o alguna de las otras lenguas habladas que dan cuenta de la gran mayoría de los 36 millones de entradas de Wikipedia. Pero dado que más de la mitad de la población mundial es monolingüe, existen lagunas en el conocimiento de una versión en idioma local a otra.

Para ayudar a los editores de diferentes comunidades lingüísticas a identificar importantes artículos que faltan, científicos de la computación de la Universidad Stanford (California, EE.UU.) y la Fundación Wikimedia han creado una herramienta de recomendación que identifica los artículos más importantes que aún no están disponibles en un determinado idioma.

Los editores pueden utilizar estas recomendaciones y, si son multilingües, buscar un artículo en una segunda lengua que les sea familiar u otro tipo de ayuda con el fin de traducir el artículo para los lectores locales de Wikipedia.

De este modo, el sistema primero identifica a un editor en Madagascar que se interesa por la climatología y lee y escribe en malgache y francés, y luego le recomienda trabajar en un artículo sobre El Niño, que está ausente de la Wikipedia malgache. De esta manera el editor puede crear un artículo para personas de este país insular que explica cómo puede influir El Niño en las precipitaciones, lo cual a su vez afecta a la agricultura y las inundaciones.

«Como investigadores universitarios, buscamos proyectos con impacto en el mundo real», dice Jure Leskovec, profesor asistente de ciencias de la computación en Stanford, en la información de ésta. «¿Qué podría tener más impacto que la democratización del acceso al conocimiento?»

Los científicos de la Fundación Wikimedia Ellery Wulczyn y Leila Zia y el estudiante de posgrado de Stanford Robert West completan el equipo de colaboradores.

«Wikipedia tiene enormes cantidades de datos sobre artículos en diferentes idiomas y las relaciones entre ellos», dijo West, doctorando en ciencias de la computación. «Nuestro objetivo era utilizar esos datos para diseñar un sistema que animara a los editores a crear los artículos más importantes que faltan.»

El proceso

Los investigadores comenzaron mediante la creación de listas de todos los artículo de cada idioma, y ​​luego cruzaron estas listas para determinar cuáles son los artículos que faltaban en qué idiomas. Luego, los investigadores estimaron la importancia de cada artículo faltante basándose en la relevancia cultural y geográfica. La idea era clasificar el valor de la creación de cualquier artículo dado que falta en ese idioma en relación con todos los demás artículos que faltan.

«Tuvimos que crear un sistema de clasificación que fuera significativo para los editores de diferentes comunidades culturales y lingüísticas porque Wikipedia está conformada por las opciones de los editores», dice Zia.

Los investigadores plantearon la hipótesis de que un sistema que predijera con exactitud la popularidad de los artículos que faltan atraería a los editores sugiriéndoles que sus esfuerzos voluntarios podrían ofrecer mayor valor a sus comunidades lingüísticas y, presumiblemente, darles mayor satisfacción personal.

Para probar esta premisa, los investigadores diseñaron un complejo experimento. Comenzaron con los 4,9 millones de artículos que existían en la Wikipedia en inglés, y encontraron aquellos que faltaban con respecto a los 1,6 millones de artículos de la Wikipedia en francés.

Luego, los investigadores eligieron los 300.000 artículos más importantes que estaban en la inglesa y faltaban en la francesa. Estos artículos fueron divididos aleatoriamente en tres grupos de 100.000 artículos cada uno y distribuidos a los editores seleccionados.

El quid del experimento incluyó dos grupos de 6.000 editores que habían hecho al menos una edición en las Wikipedias inglesa y francesa en los 12 meses anteriores al experimento. El 25 de junio de 2015, cada uno de estos editores recibió un correo electrónico que le informaba de que faltaban cinco artículos importantes y le sugería que sería un servicio a la comunidad que tradujera uno del inglés al francés.

En un grupo, las cinco opciones fueron asignadas al azar de la lista maestra de artículos importantes que faltaban de la Wikipedia francesa.

Para el segundo grupo, las cinco opciones también fueron extraídas de una lista separada de importantes artículos que faltaban, pero también estaban en sintonía con los presuntos intereses de cada editor, basándose en los artículos que cada uno había editado en el pasado.

Un mes después de enviar sus mensajes de correo electrónico, los investigadores evaluaron la creación de artículos, y encontraron que simplemente podían duplicar la tasa de creación de artículos recomendando artículos al azar. En el segundo grupo se triplicó.

Sobre la base de estos resultados, la Fundación Wikimedia ha desarrollado una herramienta experimental donde los editores pueden encontrar lagunas en la Wikipedia de su idioma local y obtener referencias en otro idioma que les sea familiar.

Arte

Mientras, ha dado comienzo una competición para traducir y publicar artículos en Wikipedia sobre historia del arte europea, organizado por Europeana, la biblioteca digital europea de acceso libre.

Los Ministerios de Cultura de cada nación de la Unión Europea han seleccionado 10 obras de arte de gran valor de los museos de su país, informa la Fundación Wikimedia en su blog. Estas 300 obras van desde la escultura contemporánea irlandesa al arte de cueva español, pasando por pinturas de paisajes de Letonia y manuscritos iluminados de Bulgaria.

Referencia bibliográfica:

Ashwin Paranjape, Robert West, Leila Zia, Jure Leskovec: Improving Website Hyperlink Structure Using Server Logs. arXiv:1512.07258

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Revolución en las venas: Japón ensaya una sangre artificial que cambiará la medicina global 4 junio, 2025
    Japón está a punto de reescribir la historia de la medicina transfusional. Científicos de la Universidad Médica de Nara han desarrollado una sangre artificial que no solo es compatible con todos los grupos sanguíneos, sino que puede almacenarse durante dos años a temperatura ambiente, una hazaña que en 2030 podría salvar millones de vidas en […]
    Redacción T21
  • Revelan fuerzas ocultas en la profundidad de los océanos de la Tierra 4 junio, 2025
    Un equipo internacional de científicos utilizó datos satelitales para descubrir poderosos remolinos submarinos, que modifican nuestra comprensión de la dinámica del clima oceánico y muestran que muchos fenómenos de este tipo han sido subestimados hasta hoy.
    Redacción T21
  • La ingeniería entra en una nueva era: Alemania presenta al primer ingeniero IA del mundo 4 junio, 2025
    El primer ingeniero IA del mundo ha nacido en Alemania: integra cuatro agentes de inteligencia artificial, cada uno especializado en una fase del proceso ingenieril, y un científico inteligente especializado en dinámica de fluidos.
    Redacción T21
  • Descubren rastros de una enigmática civilización antigua en Colombia 3 junio, 2025
    Un equipo internacional de investigadores analizó el ADN de 21 conjuntos de restos humanos recolectados de cinco sitios en la meseta del Altiplano, en el centro de Colombia: los registros muestran la existencia de una población antigua, con una genética no relacionada con cualquier descendencia moderna. Se trataría de una civilización que puede haber sido […]
    Pablo Javier Piacente / T21.
  • Crean una tela inteligente que mide constantes vitales mediante el sonido 3 junio, 2025
    Investigadores suizos han desarrollado productos textiles inteligentes que utilizan ondas acústicas en lugar de electrónica para medir el tacto, la presión y el movimiento con precisión. El secreto es el uso de microfibras de vidrio que emiten y recepcionan las señales sonoras.
    Pablo Javier Piacente / T21
  • Oleada cósmica: cinco asteroides rozan la Tierra en solo cuatro días 3 junio, 2025
    Cinco rocas espaciales pasarán a millones de kilómetros de nuestro planeta en apenas cuatro días, con el 4 de junio como jornada clave. No representan peligro, pero ofrecen una oportunidad única para la ciencia.
    Redacción T21
  • Estados Unidos crea una "máquina del tiempo científica", capaz de condensar en días décadas de investigación 3 junio, 2025
    El próximo superordenador Doudna, que Estados Unidos tendrá operativo en 2026, está diseñado para ser el catalizador de una nueva era de descubrimientos, transformando la forma en que abordamos desde los misterios del cosmos hasta las complejidades de la vida misma.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Se revela una estructura oculta al borde del Sol 3 junio, 2025
    La atmósfera exterior del Sol, conocida como corona solar, ha revelado recientemente detalles asombrosos gracias a avances en óptica adaptativa y técnicas de observación de alto contraste. Un equipo internacional de científicos ha logrado capturar las imágenes más nítidas hasta la fecha de la corona solar, mostrando fenómenos como las “gotas de lluvia” solares y […]
    Redacción T21
  • Dormir mal puede estar relacionado con problemas en la audición 2 junio, 2025
    Una investigación realizada en China y otros estudios recientes sugieren que las patologías del sueño, como el insomnio, el trastorno del movimiento periódico de las extremidades y la apnea del sueño podrían estar relacionados con la pérdida auditiva.
    Pablo Javier Piacente / T21
  • Un tatuaje electrónico puede leer los niveles de estrés 2 junio, 2025
    Un nuevo tatuaje electrónico portátil y ultradelgado que se coloca en la frente de forma no invasiva monitorea de manera inalámbrica la actividad cerebral, rastrea la carga cognitiva en tiempo real y potencialmente predice la fatiga mental y el estrés antes que se haga evidente.
    Pablo Javier Piacente / T21