Tendencias21

Un software descifra palabras incompletas de textos históricos

Estudiantes de Ingeniería y Artes de Estados Unidos se han valido del conocimiento digital para solucionar los problemas de transcripción de textos históricos digitalizados. Utilizando el modelado del lenguaje, técnica utilizada en programas de autocorrección y de reconocimiento de voz, han creado un software que ofrece posibilidades para corregir las palabras que faltan o los errores ortográficos en función del contexto. Por Patricia Pérez

Un software descifra palabras incompletas de textos históricos

La digitalización de libros históricos se enfrenta al problema del paso del tiempo, lo que a menudo supone páginas oscurecidas, manchadas o con roturas, además de palabras o abreviaturas en desuso actualmente. Como consecuencia, en Estados Unidos cuando los traductores no pueden leer o entender una parte de un texto, sustituyen el carácter desconocido por un punto negro, un símbolo que desluce la importancia de estos escritos.

Ahora, estudiantes de Ingeniería de la Escuela McCormick en la Universidad Northwestern, en EEUU, pretenden acabar con esas palabras desfiguradas y, en ocasiones, indescifrables que pueblan las versiones traducidas de los libros más antiguos. Trabajando en colaboración con estudiantes de Pregrado de la Escuela Weinberg de Artes y Ciencias, han diseñado un software que utiliza el modelado del lenguaje, similar a los programas de autocorrección y de reconocimiento de voz, para poner fin a las palabras incompletas.

«Los textos digitalizados son bienes de patrimonio cultural y como tal, deben estar limpios», destaca Martin Mueller, profesor emérito de Weinberg, en un artículo de la revista de ingeniería de Northwestern.

Los ingenieros pusieron a prueba el sistema con 363 textos de la misma época relativamente libres de puntos negros. Una vez que el programa entendió el mecanismo, estaba listo para trabajar con otra muestra de 359 textos defectuosos, incluyendo en esta ocasión obras de teatro, libros de texto, transcripciones de juicios, tratados o novelas románticas, entre otros.

Probabilidades y contexto

En 1999, varias universidades y bibliotecas estadounidenses se unieron para crear la Text Creation Partnership (TCP), organización sin ánimo de lucro desde la que digitalizar libros en inglés publicados antes de 1700. Además crearon una base de datos navegable gratuita para que estudiantes, académicos y lectores de todo el mundo pudieran buscar o transcribir textos y subirlos a la red.

«Con un proceso así, muchas cosas pueden salir mal», expresa Mueller. De hecho, en los 50.000 textos transcritos resultantes se registraron aproximadamente cinco millones de palabras incompletas. A los libros envejecidos y estropeados había que sumar los escaneos de mala calidad. Por ello, si los transcriptores no podían leer o entender una parte del ejemplar, se acordó sustituir el carácter desconocido por un punto negro.

Según explica la universidad en un comunicado, el sistema de modelado del lenguaje detecta tanto los puntos negros como las faltas de ortografía, evaluando entonces los 35 caracteres a la izquierda y la derecha de cada uno para ofrecer tres posibilidades de sustitución, asignando una probabilidad a cada opción en función del contexto.

Por ejemplo, la palabra «lo • e» en inglés podría ser «love» (amor), pero también “lone” (solitario), “lore” (tradición) o “lose” (perder). El software se vale del contexto para elegir la opción correcta, de forma que si dice “she was in lo•e with him» (ella estaba • de él), el programa asume que la palabra que falta es «love».

El pasado verano, los estudiantes de Weinberg trabajaron para resolver los enigmas del lenguaje, combinando opciones y seleccionando la correcta. Mientras tanto, los de Ingeniería desarrollaron una plataforma web interactiva donde los estudiantes de Humanidades podían buscar palabras en diferentes textos y corregir los errores en el acto. En muchos casos, no solo se ocupaban de palabras con huecos en blanco, sino también de errores de ortografía y de palabras o letras en desuso. Los administradores decidían después si aceptaban o rechazaban las correcciones, que se actualizaban automáticamente en el sistema.

Reducción tiempo/coste

«Las máquinas también pueden aprender de esa retroalimentación», explica el líder del proyecto Doug Downey, profesor asociado de Ingeniería Eléctrica e Informática en McCormick. «Con un poco de crowdsourcing conseguiríamos transcripciones de alta calidad», añade.

Y es que, probablemente un lector podría revisar varios textos y corregir todos los errores, pero tardaría varios minutos en encontrar sólo uno. Por esta regla de tres se necesitarían años de trabajo sin parar de una persona para hacer frente a todos los errores; una tarea poco práctica, si no humanamente imposible.

Los resultados iniciales de la colaboración indican que aproximadamente tres cuartas partes de las obras que están incompletas o mal transcritas pueden ser definitivamente corregidas con una combinación de aprendizaje automático y edición asistida, sin necesidad de consultar el texto original impreso. Esto podría reducir drásticamente el coste/tiempo humano de minutos a unos pocos segundos por palabra.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Crean un arma de rayo de energía inspirada en la Estrella de la Muerte de la saga Star Wars 14 noviembre, 2024
    Científicos chinos afirman haber hecho realidad el arma de haz de energía convergente que utiliza la estación espacial Estrella de la Muerte en la saga Star Wars: el sistema dirige una serie de haces de alta potencia a un solo objetivo. En la práctica, el arma podría tener un impacto letal al permitir desplegar múltiples vehículos […]
    Pablo Javier Piacente
  • Una isla rusa desaparece por completo del mapa en el Ártico 14 noviembre, 2024
    Un grupo de escolares y estudiantes universitarios descubrió que una isla rusa en el Ártico ha desaparecido recientemente, después de comparar imágenes satelitales del área para un proyecto educativo. La Sociedad Geográfica Rusa confirmó la desaparición de la isla helada Mesyatseva, aparentemente como consecuencia de los efectos del calentamiento global y el cambio climático antropogénico.
    Pablo Javier Piacente
  • Descubren cómo nuestro cerebro predice el futuro 14 noviembre, 2024
    El cerebro hace mucho más que procesar información: aprende de experiencias pasadas y hace predicciones sobre el futuro inmediato. Así podemos vivir con seguridad las experiencias cotidianas.
    Redacción T21
  • Descubren una extraña criatura fantasmal desconocida en lo profundo del océano 13 noviembre, 2024
    Un grupo de investigadores ha revelado recientemente una variedad desconocida de nudibranquio, una extraña criatura marina que nada libremente en los mares a más de 2.200 metros de profundidad, iluminada por un brillo bioluminiscente y adornada con una capucha ondulante, que le confieren un aspecto fantasmal. Se trata del primer nudibranquio conocido de su tipo, […]
    Pablo Javier Piacente
  • Nuestros antepasados usaron herramientas hace más de 3 millones de años 13 noviembre, 2024
    Un nuevo estudio que ha analizado los huesos de las manos de australopitecos, simios y humanos revela que el uso de herramientas probablemente evolucionó antes del surgimiento del género Homo: nuestros antepasados homínidos habrían comenzado a dominarlas hace más de 3 millones de años, iniciando una práctica cultural y tecnológica que se creía propia de […]
    Pablo Javier Piacente
  • Es hora de reconstruir una Valencia que sea física, política y económicamente resiliente 13 noviembre, 2024
    La tragedia de Valencia es la suma de la crisis climática y de una gobernanza que ha priorizado el lucro de unos pocos y el crecimiento descontrolado por encima de la seguridad de las personas. Una financiación autonómica injusta y una insuficiente comprensión de los riesgos climáticos que la ciencia anuncia completan una catástrofe anunciada.
    Fernando Valladares, Agnès Delage Amat y Rafael Jiménez Aybar (*)
  • Japón lanza el primer satélite de madera al espacio 12 noviembre, 2024
    En el marco de una misión que tiene como objetivo primordial probar la hipótesis sobre la utilidad que podrían tener ciertos tipos de madera en la industria aeroespacial, investigadores japoneses lanzaron recientemente al espacio un pequeño satélite de madera. El equipo experimental fue transportado a la Estación Espacial Internacional (ISS) y se desplegará en órbita […]
    Pablo Javier Piacente
  • Los microplásticos pueden crear nubes y modificar el clima de la Tierra 12 noviembre, 2024
    Los microplásticos, directamente relacionados con los desechos industriales generados por la actividad humana y que están implicados en algunos de los problemas ambientales más graves que aquejan al planeta, también podrían producir nubes y modificar directamente el clima. Según un nuevo estudio, las partículas microplásticas pueden crear cristales de hielo a temperaturas de 5 a […]
    Pablo Javier Piacente
  • La memoria no solo reside en el cerebro, sino que está en todas las células del cuerpo 12 noviembre, 2024
    Un nuevo estudio ha descubierto que la memoria no es exclusiva del cerebro, sino que es una capacidad natural de todas las células que, por ejemplo, permite al páncreas recordar el patrón de nuestras comidas pesadas para mantener niveles saludables de glucosa en la sangre.
    Redacción T21
  • La IA podría producir hasta 5 millones de toneladas de residuos electrónicos en 10 años 11 noviembre, 2024
    La Inteligencia Artificial (IA) depende de mejoras tecnológicas rápidas, incluida la infraestructura de hardware y los chips. Las actualizaciones necesarias para seguir el ritmo del crecimiento de la tecnología podrían agravar los problemas existentes en cuanto a la acumulación de desechos electrónicos: al generar que los equipos se vuelvan obsoletos cada vez con mayor rapidez, […]
    Pablo Javier Piacente