Tendencias21

Un software descifra palabras incompletas de textos históricos

Estudiantes de Ingeniería y Artes de Estados Unidos se han valido del conocimiento digital para solucionar los problemas de transcripción de textos históricos digitalizados. Utilizando el modelado del lenguaje, técnica utilizada en programas de autocorrección y de reconocimiento de voz, han creado un software que ofrece posibilidades para corregir las palabras que faltan o los errores ortográficos en función del contexto. Por Patricia Pérez

Un software descifra palabras incompletas de textos históricos

La digitalización de libros históricos se enfrenta al problema del paso del tiempo, lo que a menudo supone páginas oscurecidas, manchadas o con roturas, además de palabras o abreviaturas en desuso actualmente. Como consecuencia, en Estados Unidos cuando los traductores no pueden leer o entender una parte de un texto, sustituyen el carácter desconocido por un punto negro, un símbolo que desluce la importancia de estos escritos.

Ahora, estudiantes de Ingeniería de la Escuela McCormick en la Universidad Northwestern, en EEUU, pretenden acabar con esas palabras desfiguradas y, en ocasiones, indescifrables que pueblan las versiones traducidas de los libros más antiguos. Trabajando en colaboración con estudiantes de Pregrado de la Escuela Weinberg de Artes y Ciencias, han diseñado un software que utiliza el modelado del lenguaje, similar a los programas de autocorrección y de reconocimiento de voz, para poner fin a las palabras incompletas.

«Los textos digitalizados son bienes de patrimonio cultural y como tal, deben estar limpios», destaca Martin Mueller, profesor emérito de Weinberg, en un artículo de la revista de ingeniería de Northwestern.

Los ingenieros pusieron a prueba el sistema con 363 textos de la misma época relativamente libres de puntos negros. Una vez que el programa entendió el mecanismo, estaba listo para trabajar con otra muestra de 359 textos defectuosos, incluyendo en esta ocasión obras de teatro, libros de texto, transcripciones de juicios, tratados o novelas románticas, entre otros.

Probabilidades y contexto

En 1999, varias universidades y bibliotecas estadounidenses se unieron para crear la Text Creation Partnership (TCP), organización sin ánimo de lucro desde la que digitalizar libros en inglés publicados antes de 1700. Además crearon una base de datos navegable gratuita para que estudiantes, académicos y lectores de todo el mundo pudieran buscar o transcribir textos y subirlos a la red.

«Con un proceso así, muchas cosas pueden salir mal», expresa Mueller. De hecho, en los 50.000 textos transcritos resultantes se registraron aproximadamente cinco millones de palabras incompletas. A los libros envejecidos y estropeados había que sumar los escaneos de mala calidad. Por ello, si los transcriptores no podían leer o entender una parte del ejemplar, se acordó sustituir el carácter desconocido por un punto negro.

Según explica la universidad en un comunicado, el sistema de modelado del lenguaje detecta tanto los puntos negros como las faltas de ortografía, evaluando entonces los 35 caracteres a la izquierda y la derecha de cada uno para ofrecer tres posibilidades de sustitución, asignando una probabilidad a cada opción en función del contexto.

Por ejemplo, la palabra «lo • e» en inglés podría ser «love» (amor), pero también “lone” (solitario), “lore” (tradición) o “lose” (perder). El software se vale del contexto para elegir la opción correcta, de forma que si dice “she was in lo•e with him» (ella estaba • de él), el programa asume que la palabra que falta es «love».

El pasado verano, los estudiantes de Weinberg trabajaron para resolver los enigmas del lenguaje, combinando opciones y seleccionando la correcta. Mientras tanto, los de Ingeniería desarrollaron una plataforma web interactiva donde los estudiantes de Humanidades podían buscar palabras en diferentes textos y corregir los errores en el acto. En muchos casos, no solo se ocupaban de palabras con huecos en blanco, sino también de errores de ortografía y de palabras o letras en desuso. Los administradores decidían después si aceptaban o rechazaban las correcciones, que se actualizaban automáticamente en el sistema.

Reducción tiempo/coste

«Las máquinas también pueden aprender de esa retroalimentación», explica el líder del proyecto Doug Downey, profesor asociado de Ingeniería Eléctrica e Informática en McCormick. «Con un poco de crowdsourcing conseguiríamos transcripciones de alta calidad», añade.

Y es que, probablemente un lector podría revisar varios textos y corregir todos los errores, pero tardaría varios minutos en encontrar sólo uno. Por esta regla de tres se necesitarían años de trabajo sin parar de una persona para hacer frente a todos los errores; una tarea poco práctica, si no humanamente imposible.

Los resultados iniciales de la colaboración indican que aproximadamente tres cuartas partes de las obras que están incompletas o mal transcritas pueden ser definitivamente corregidas con una combinación de aprendizaje automático y edición asistida, sin necesidad de consultar el texto original impreso. Esto podría reducir drásticamente el coste/tiempo humano de minutos a unos pocos segundos por palabra.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Las mariposas pueden viajar a través de océanos enteros con la ayuda del viento 8 julio, 2024
    Un nuevo estudio ha demostrado que la mariposa dama pintada (Vanessa cardui) puede cruzar el segundo océano más grande del mundo, el Atlántico, con la ayuda de los vientos. Logra cubrir 4.200 kilómetros en tan solo 5 a 8 días. Sin el empuje de los vientos, los insectos solo habrían alcanzado unos 780 kilómetros antes […]
    Pablo Javier Piacente
  • El material orgánico de Marte revela el origen de la vida en la Tierra 8 julio, 2024
    Los científicos han descubierto que el dióxido de carbono en interacción con la luz solar ultravioleta reaccionó para conformar una niebla de moléculas de carbono, que se precipitaron sobre la superficie de Marte y dieron origen de esta forma al material orgánico identificado en el Planeta Rojo. El hallazgo podría ayudarnos a revelar cómo terminaron […]
    Pablo Javier Piacente
  • Cumbre mundial de física nuclear en Barcelona 8 julio, 2024
    La Universidad de Barcelona acoge esta semana una cumbre mundial de física nuclear y hadrónica para debatir las posibilidades de los núcleos atómicos para desvelar los misterios que rodean a los componentes esenciales de la materia cósmica.
    Eduardo Martínez de la Fe
  • Los perros que viven cerca de Chernóbil son genéticamente únicos 7 julio, 2024
    Un nuevo estudio sugiere que los perros que viven en las cercanías de la zona donde ocurrió el desastre nuclear de Chernóbil en 1986 han desarrollado variaciones genéticas únicas, que los diferencian notablemente de otras poblaciones de la misma especie. Además, los científicos creen que existen cambios en el impacto genético de acuerdo a la […]
    Pablo Javier Piacente
  • Los neandertales se extinguieron por hacer el amor, y no la guerra 6 julio, 2024
    Una nueva investigación sugiere que tener sexo con el Homo sapiens habría terminado con los neandertales, y no grandes guerras o enfrentamientos con animales feroces. Al parecer, el mestizaje con nuestros ancestros podría haber dado como resultado que muy pocos neandertales se cruzaran entre sí, lo que los llevó a la extinción.
    Pablo Javier Piacente
  • Algo invisible podría esconderse bajo la superficie de la Luna 5 julio, 2024
    Las extrañas estructuras arremolinadas de origen magnético que se han descubierto en la Luna y que aún no tienen explicación, podrían crearse a partir de la actividad de algo desconocido que existe en el interior del satélite: un nuevo estudio intenta determinar qué podría ser exactamente lo que está oculto bajo la superficie lunar y […]
    Pablo Javier Piacente
  • Las explosiones solares extremas combinadas con un campo magnético débil podrían ser un gran peligro para la Tierra 5 julio, 2024
    Los científicos advierten que en momentos en que el campo magnético de la Tierra es débil, las tormentas solares muy intensas podrían tener un efecto dramático para la vida en todo el planeta. Aunque no es posible saber cuándo podría concretarse esta combinación mortal, indican que es necesario estar alertas durante el máximo solar o […]
    Pablo Javier Piacente
  • Se crea el primer acceso gratuito a la superficie lunar 5 julio, 2024
    Un software de código abierto llamado Moonindex facilita a los científicos una herramienta gratuita para explorar el posible uso de los recursos minerales de la Luna en futuras misiones espaciales y para identificar sitios de aterrizaje adecuados.
    Redacción T21
  • Crean el primer robot organoide con materia cerebral humana 4 julio, 2024
    Un sistema de interfaz cerebro-ordenador desarrollado en China combina la materia cerebral humana con un chip para crear un robot híbrido: se trata de un organoide creado en base a células madre en un entorno controlado de laboratorio, que interactúa con electrodos para llevar adelante funciones cerebrales básicas.
    Pablo Javier Piacente
  • Una pierna biónica puede ser controlada por el cerebro y hasta permite escalar o bailar 4 julio, 2024
    Los investigadores han desarrollado una nueva pierna protésica que se puede controlar a través de señales cerebrales: permite caminar a velocidades máximas equivalentes a las personas sin amputación, además de realizar excursiones, escalar y hasta bailar. Se trata de la primera prótesis con estas características que puede ser controlada totalmente por el sistema nervioso del […]
    Pablo Javier Piacente