Tendencias21

Un software descifra palabras incompletas de textos históricos

Estudiantes de Ingeniería y Artes de Estados Unidos se han valido del conocimiento digital para solucionar los problemas de transcripción de textos históricos digitalizados. Utilizando el modelado del lenguaje, técnica utilizada en programas de autocorrección y de reconocimiento de voz, han creado un software que ofrece posibilidades para corregir las palabras que faltan o los errores ortográficos en función del contexto. Por Patricia Pérez

Un software descifra palabras incompletas de textos históricos

La digitalización de libros históricos se enfrenta al problema del paso del tiempo, lo que a menudo supone páginas oscurecidas, manchadas o con roturas, además de palabras o abreviaturas en desuso actualmente. Como consecuencia, en Estados Unidos cuando los traductores no pueden leer o entender una parte de un texto, sustituyen el carácter desconocido por un punto negro, un símbolo que desluce la importancia de estos escritos.

Ahora, estudiantes de Ingeniería de la Escuela McCormick en la Universidad Northwestern, en EEUU, pretenden acabar con esas palabras desfiguradas y, en ocasiones, indescifrables que pueblan las versiones traducidas de los libros más antiguos. Trabajando en colaboración con estudiantes de Pregrado de la Escuela Weinberg de Artes y Ciencias, han diseñado un software que utiliza el modelado del lenguaje, similar a los programas de autocorrección y de reconocimiento de voz, para poner fin a las palabras incompletas.

«Los textos digitalizados son bienes de patrimonio cultural y como tal, deben estar limpios», destaca Martin Mueller, profesor emérito de Weinberg, en un artículo de la revista de ingeniería de Northwestern.

Los ingenieros pusieron a prueba el sistema con 363 textos de la misma época relativamente libres de puntos negros. Una vez que el programa entendió el mecanismo, estaba listo para trabajar con otra muestra de 359 textos defectuosos, incluyendo en esta ocasión obras de teatro, libros de texto, transcripciones de juicios, tratados o novelas románticas, entre otros.

Probabilidades y contexto

En 1999, varias universidades y bibliotecas estadounidenses se unieron para crear la Text Creation Partnership (TCP), organización sin ánimo de lucro desde la que digitalizar libros en inglés publicados antes de 1700. Además crearon una base de datos navegable gratuita para que estudiantes, académicos y lectores de todo el mundo pudieran buscar o transcribir textos y subirlos a la red.

«Con un proceso así, muchas cosas pueden salir mal», expresa Mueller. De hecho, en los 50.000 textos transcritos resultantes se registraron aproximadamente cinco millones de palabras incompletas. A los libros envejecidos y estropeados había que sumar los escaneos de mala calidad. Por ello, si los transcriptores no podían leer o entender una parte del ejemplar, se acordó sustituir el carácter desconocido por un punto negro.

Según explica la universidad en un comunicado, el sistema de modelado del lenguaje detecta tanto los puntos negros como las faltas de ortografía, evaluando entonces los 35 caracteres a la izquierda y la derecha de cada uno para ofrecer tres posibilidades de sustitución, asignando una probabilidad a cada opción en función del contexto.

Por ejemplo, la palabra «lo • e» en inglés podría ser «love» (amor), pero también “lone” (solitario), “lore” (tradición) o “lose” (perder). El software se vale del contexto para elegir la opción correcta, de forma que si dice “she was in lo•e with him» (ella estaba • de él), el programa asume que la palabra que falta es «love».

El pasado verano, los estudiantes de Weinberg trabajaron para resolver los enigmas del lenguaje, combinando opciones y seleccionando la correcta. Mientras tanto, los de Ingeniería desarrollaron una plataforma web interactiva donde los estudiantes de Humanidades podían buscar palabras en diferentes textos y corregir los errores en el acto. En muchos casos, no solo se ocupaban de palabras con huecos en blanco, sino también de errores de ortografía y de palabras o letras en desuso. Los administradores decidían después si aceptaban o rechazaban las correcciones, que se actualizaban automáticamente en el sistema.

Reducción tiempo/coste

«Las máquinas también pueden aprender de esa retroalimentación», explica el líder del proyecto Doug Downey, profesor asociado de Ingeniería Eléctrica e Informática en McCormick. «Con un poco de crowdsourcing conseguiríamos transcripciones de alta calidad», añade.

Y es que, probablemente un lector podría revisar varios textos y corregir todos los errores, pero tardaría varios minutos en encontrar sólo uno. Por esta regla de tres se necesitarían años de trabajo sin parar de una persona para hacer frente a todos los errores; una tarea poco práctica, si no humanamente imposible.

Los resultados iniciales de la colaboración indican que aproximadamente tres cuartas partes de las obras que están incompletas o mal transcritas pueden ser definitivamente corregidas con una combinación de aprendizaje automático y edición asistida, sin necesidad de consultar el texto original impreso. Esto podría reducir drásticamente el coste/tiempo humano de minutos a unos pocos segundos por palabra.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Los dinosaurios murieron en primavera 25 febrero, 2022
    La extinción de los dinosaurios ocurrió en la primavera de hace 66 millones de años, lo que explica por qué muchas aves y mamíferos sobrevivieron al impacto de un asteroide de 10 kilómetros de ancho que resultó demoledor para la vida en todo el planeta.
    InsideScience/T21
  • Neuronas y dendritas especializadas desarrollan la matemática cerebral 25 febrero, 2022
    Dos investigaciones diferentes han desvelado la importancia de las matemáticas para el cerebro: no solo tiene neuronas especializadas en sumar y restar, sino también dendritas que realizan cálculos complejos para procesar la información sensorial.
    Eduardo Martínez de la Fe
  • Descubren en Inglaterra una “cápsula del tiempo” de la Edad de Hierro 24 febrero, 2022
    Una “cápsula del tiempo” descubierta en el noroeste de Inglaterra es el registro más completo de la vida de la Edad del Hierro jamás recuperado: diez casas circulares y más de 5.000 artefactos, que datan del año 800 antes de Cristo, permitirán entender por primera vez y en profundidad las prácticas culturales y rituales de […]
    Pablo Javier Piacente
  • Revolucionario descubrimiento sobre una misteriosa y rápida señal de radio 24 febrero, 2022
    Una investigación ha descubierto que una serie de ráfagas de radio rápidas (FRB) detectadas el año pasado no solo se ubican mucho más cerca de nosotros de lo que pensábamos, sino que además aparecen en un cúmulo globular, un grupo de estrellas muy antiguas, algo totalmente inesperado y revolucionario para los astrónomos.
    Pablo Javier Piacente
  • Los metamateriales pueden resolver ecuaciones a la velocidad de la luz 24 febrero, 2022
    La computación analógica basada en interacciones de ondas electromagnéticas con metamateriales ha hecho posible el diseño de un ordenador analógico óptico y compacto que puede resolver ecuaciones diferenciales casi al instante.
    N+1/T21
  • La criptografía cuántica funciona también a través del aire urbano 24 febrero, 2022
    Físicos rusos han probado con éxito la criptografía cuántica por el aire en un entorno urbano: combinaron equipos de seguridad de la información cuántica con tecnología de transmisión de datos por láser y evaluaron la influencia de las condiciones climáticas en la calidad de su sincronización.
    Eduardo Martínez de la Fe
  • Integran una neurona orgánica artificial en una planta viva 23 febrero, 2022
    Una neurona artificial confeccionada con transistores electroquímicos orgánicos es capaz de integrarse a una planta carnívora y crear sinapsis artificiales: a través de este circuito neuronal, puede “engañar” al vegetal y hacer que sus hojas se cierren, sin que ninguna presa esté lista para ser devorada. 
    Pablo Javier Piacente
  • Encuentran compuestos orgánicos en un planeta del cinturón de asteroides 23 febrero, 2022
    Un cráter ubicado en el planeta enano Ceres, el cuerpo más grande del cinturón de asteroides, presenta extrañas manchas blancas: los astrónomos sostienen que se trata de depósitos de sal y materia orgánica. La presencia de estos compuestos refuerza la posibilidad de que Ceres esté atravesado por un océano subterráneo, parte del cual aún podría […]
    Pablo Javier Piacente
  • Seguramente se producirán más erupciones en lugares como La Palma y Tonga 23 febrero, 2022
    Una investigación europea ha documentado que las diferencias de temperatura en el manto superior de la Tierra permiten anticipar qué volcanes entrarán en erupción, pero no en qué momento. El geofísico Javier Fullea, de la UCM, que participó en esa investigación, anticipa en esta entrevista que seguramente se producirán más erupciones en lugares como La […]
    Eduardo Martínez de la Fe
  • Un tercer continente euroasiático existió hace 50 millones de años 23 febrero, 2022
    Balkanatolia era un continente que existió hace 50 millones años separado de Europa y Asia. Hace de 34 a 40 millones de años se unió con sus dos vecinos, allanando el camino para el reemplazo de los mamíferos europeos por mamíferos asiáticos.
    Redacción T21